首页 理论教育百度搜索引擎技术:基础与实践

百度搜索引擎技术:基础与实践

【摘要】:2000年1月百度网络技术(北京)有限公司成立。目前,该技术已为世界各大搜索引擎普遍采用。百度每天处理来自百余个国家超过数亿次的搜索请求,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。2004年起,“有问题,百度一下”在中国开始风行,百度成为搜索的代名词。搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。建立索引数据库。

2000年1月百度网络技术(北京)有限公司成立。“百度”这一公司名称来自宋词“众里寻他千百度”。其实百度的名字也寄托着百度公司对自身技术的信心,其另一层含义就是突破“事儿做到九十九度就是做到头”的西方说法,百度就是想要力争做到一百度,做到顶上开花的境界。而“熊掌”图标的想法来源于“猎人巡迹熊爪”的刺激,与百度创始人李彦宏的“分析搜索技术”非常相似,从而构成百度的搜索概念,形成百度的形象。

百度公司是一家立足于自主掌握并提供互联网核心技术的技术型公司。在中国互联网经济迅猛发展的今天,它结合世界先进的网络技术、中国语言特色及中国互联网经济发展的现状,开发出了中国互联网信息检索和传递基础设施平台,并且运用最先进的商业模式,为整个中国的互联网提供高价值的技术性服务互联网产品,成为中国优秀的互联网技术提供商。

百度以自身的核心技术“超链分析”为基础,提供的搜索服务体验赢得了广大用户的喜爱;超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在利用百度搜索时,越受用户欢迎的内容排名越靠前。目前,该技术已为世界各大索引擎普遍采用。

百度拥有全球最大的中文网页库,这些网页的数量每天以千万级的速度在增长;同时,百度在中国各地分布的服务器,能直接从最近的服务器上,把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度。

百度每天处理来自百余个国家超过数亿次的搜索请求,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。2004年起,“有问题,百度一下”在中国开始风行,百度成为搜索的代名词。

百度还为各类企业提供软件、竞价排名以及关联广告等服务,为企业提供了一个获得潜在消费者的营销平台,并为大型企业和政府机构提供海量信息检索与管理方案。百度的主要商业模式为竞价排名(pay for performance),即为一种按效果付费的网络推广方式,该服务为广大中小企业进行网络营销提供了较佳的发展机会,但同时也引起了一些争议;有人认为该服务会影响用户体验。

百度目前提供网页搜索、MP3搜索、图片搜索、百度新闻搜索、百度贴吧、百度知道、百度空间、百度搜索风云榜、百度硬盘搜索、百度百科、百度搜藏等主要产品和服务,同时也提供多项满足用户更加细分需求的搜索服务,如百度地图搜索、百度地区搜索、百度国学搜索、百度黄页搜索、百度文档搜索、百度邮编搜索、百度政府网站搜索、百度教育网站搜索、百度邮件新闻订阅、百度WAP贴吧、百度WAP知道、手机搜索(与Nokia合作)、百度少儿搜索等服务;同时,百度还在个人服务领域提供了包括百度影视、百度传情、百度手机娱乐、百度视频等服务。

百度的超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网页,其价值就越高,就越应该在结果排序中排到前面。超链分析是一种引用投票机制,对于静态网页或者网站主页,具有一定的合理性,因为这样的网页容易根据其在互联网上受到的评价而产生不同的超链指向量,超链分析的结果可以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站点的内容,搜索引擎则是根据标题、关键词、描述、页面开始部分的内容及这些内容本身之间的关联程度及一个站点在整个网络上的关联程度来确定的。(www.chuimin.cn)

使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词,比如,“软件”,但如果有别的网页B 用链接“软件”指向这个网页A,那么用户搜索“软件”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“软件”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。

百度的超链分析的工作步骤如下。

(1)从互联网上抓取网页。

专门用于检索信息的Robot程序像蜘蛛一样在网络间爬来爬去,利用能够从互联网上自动收集网页的Spider 系统程序,自动访问互联网,并沿着任何网页中的所有URL 爬到其他网页,重复这过程,并把爬过的所有网页收集回来。随着互联网的迅速发展,检索所有新出现的网页变得越来越困难。因此,在Wan-derer 基础上,一些编程者将传统的Spider 程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。

(2)建立索引数据库。

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

(3)索引数据库中搜索排序。

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。