首页 理论教育搜索引擎工作原理及分类

搜索引擎工作原理及分类

【摘要】:工作原理通常一个搜索引擎系统由搜索器、索引器、检索器和用户端界面等四个部分组成。其中搜索器和索引器是独立于用户活动工作的。图3-1搜索引擎工作原理图①搜索器搜索器是获取网络信息资源的工具。大部分搜索引擎同时使用这两种方法。②索引器索引器的作用主要是对网络搜索器所采集的网页信息进行自动标引,建立可供检索的WEB索引数据库。这也是搜索引擎的核心所在。搜索引擎的分类搜索引擎根据不同的分类标准可以分为不同类别。

随着网络信息资源爆炸式的增长,如何在浩瀚的信息海洋中找到有价值的信息成为信息检索亟需解决的问题。在这种背景下,索引擎应运而生。

1.搜索引擎概述

(1)概念

搜索引擎实际上是个专用的WWW服务器,它根据一定的策略搜集网络信息资源,然后对这些信息进行加工处理,存储于一个可供查询的大型数据库中,最后根据用户输入的检索条件,通过一定的检索算法,返回结果到用户界面的网络检索系统。

从用户的角度来看,最简洁的典型搜索引擎提供一个检索输入框,用户通过在框里输入如关键词、词组、短语甚至自然语句,然后通过浏览器交给搜索引擎。在较短的时间内,搜索引擎会通过浏览器页面返回搜索结果,并提供快照、链接等信息。

(2)工作原理

通常一个搜索引擎系统由搜索器、索引器、检索器和用户端界面等四个部分组成。其中搜索器和索引器是独立于用户活动工作的。

图3-1 搜索引擎工作原理图

①搜索器

搜索器是获取网络信息资源的工具。一般来说,给定搜索引擎一个种子URL列表(通常这些URL所指向的都是比较重要的网站)。这些URL列表的制定,可以由网络用户通过一个特定格式主动向搜索引擎提交注册,也可以通过搜索引擎自身来制定相关的采集策略。大部分搜索引擎同时使用这两种方法。搜索器从这些列表出发,利用标准协议遍历WWW空间。其遍历的过程一般是每读取一个网页,将其内容镜像到服务器,并通过提交标引模块进行自动标引。如果该网页还包含有别的链接,则根据这个链接再读取下一个网页。一般来说,搜索器所采集的网页信息包括WWW超文本的所有文件、题名、摘要、关键词和URL等。有的搜索器还会采集基于FTP的信息资源。

从搜索器的工作方式不难看出,实际上我们使用的搜索引擎都有一定的时间滞后性。对于大型搜索引擎来说,其搜索的网页信息通常数量较大,所以更新的方式一般是增量式更新,即每次只需对新产生的网页或更新较快的一类网页的信息进行搜索。即便如此,搜索器的工作量依然很大。作为后台程序的搜索器一般是不间断工作的。而对于针对局域网的小型搜索引擎而言,由于其抓取的网页数量有限,所以每一次更新都可以从头再搜索,这样的好处是能够保证每次都将更新的信息反馈给用户。目前常用的网络搜索软件通常称为Web spider、crawler、robots等。

②索引器

索引器的作用主要是对网络搜索器所采集的网页信息进行自动标引,建立可供检索的WEB索引数据库。

通常来说,采集的网页信息还需要一定程度的加工。对文本文件的预处理过程包括:停用词删除、词干提取、索引词选择、建立词典等。停用词删除是指删除一些在文本中出现频率很高,但是对检索过程根本起不到作用的词语,冠词、介词、连词等都是停用词。删除停用词可以大大缩小索引空间的大小而且不会影响检索的性能。词干提取是针对英语这种词汇带有形式变化的语言检索的操作。例如:将“work”的变形,“works”、“worker”、“working”、“worked”等都提取为同一个词干“work”。在构建索引的时候直接可以用词干来代替词干的所有变形。词干提取大大减少了构建索引的词数量和索引空间,同时也提高了召回率。对于全文索引来说,为了节省索引空间,我们通常要选择一些比较重要的词作为索引词。索引中的词典是指同义词典或分类词汇编。词典的主要作用是提供索引和检索的标准词,帮助用户使用合适的查询词,提供分类层次结构以及对查询进行纠正或扩展等等。

经过预处理后的结果,将被用来构建索引。这也是搜索引擎的核心所在。一般来说常见的索引数据结构有倒排文档、后缀树、签名数等等。通过这些数据结构,将所有文本信息组织起来。索引一般包括索引词、索引词出现的位置、文档列表、URL等等信息。

③检索器

检索器是半独立于用户操作的,原因在于其检索模型和匹配算法是内置的,但是又必须有用户检索词、词组或短语的参与。传统的文本检索模型有布尔模型、向量空间模型和概率论模型。互联网中WEB页面的文本检索模型有PageRank模型等等。

关于布尔模型,我们在第一节检索技术中也提到了逻辑布尔检索技术,二者比较相近。布尔模型的优点是模型表达的形式化和简单性,缺点则是不能很好的反应用户的需求。

向量空间模型是将文本和查询看成是两个向量,查询向量中的词可以被赋予不同的权重。通过计算两个向量之间的相似度来返回用户所需信息及其排序。向量空间模型相比于布尔模型来说,检索性能有所改善,并且能够对检索结果进行排序。但是向量空间模型假设词与词之间彼此独立,忽视了相关性,损害了文本检索的整体性能。

概率论模型的基本原则是文本按照与查询的概率相关性排序,排在前面的文本最有可能被获取。概率论模型比布尔模型的检索效果要好,但是不如向量空间模型。然而,该模型适合于超文本系统,在超文本信息成为当前信息获取的主流信息背景下,该模型的应用越来越广泛。

PageRank模型在Google实践中使用,并取得了很好的效果。该模型基于这样一个假设:如果从其他网页链接到一个网页的数量越多,那么这个网页就越重要;越是重要的网页链接到一个网页,这个网页的重要性就越高。其重要性通过PageRank的公式来计算其PageRank值来衡量,值越大在搜索结果中的排名越靠前。

④用户端界面

用户端通常为用户提供一个友好的索引界面。用户可以根据界面的提示进行检索。通常来说,检索过程是交互式的,用户可以根据搜索引擎给出的结果动态更改自己的检索方式,而这些互动方式由用户端界面给出。总而言之,用户端界面是为了方便检索而设计的,现在我们所用的搜索引擎界面也变得越来越友好。

(3)搜索引擎的分类

搜索引擎根据不同的分类标准可以分为不同类别。按索引方式不同,搜索引擎可以分为索引型搜索引擎、目录型搜索引擎和元搜索引擎3种。

①索引型搜索引擎

全文搜索引擎是最典型的索引型搜索引擎。它通过网络爬虫工具获取互联网网页信息,并通过建立索引的方式将这些信息存入数据库,或者是直接利用其他搜索引擎数据库的方式,为用户提供全文检索。全文检索真正记录了网页的大部分文字信息,并通过预处理,将这些信息有效地通过索引存储起来。当用户从检索界面输入关键词、词组或逻辑组配的检索式时,其后台的检索代理软件会通过一定的算法找出与检索式相关的信息,并以超链接的形式反馈给用户。

索引型搜索引擎的优点是数据库容量大,信息的来源范围广、速度快,能及时向用户提供最新的消息。但是由于受限于标引、建立索引、检索等算法,使得检索的结果误差较大,有时候用户会得不到所需信息。索引型搜索引擎比较适合检索那些不知具体类别、较偏的学科知识或知道具体名称的问题。常见的索引型搜索引擎有Google,Baidu等。

②目录型搜索引擎

目录式的搜索引擎是浏览式的搜索引擎。它由专业信息人员将网络信息资源按照一定的分类以人工或半自动的方式组织起来,用户只需要按照目录,逐级展开,直到找到自己所需资源为止。目录型搜索引擎的优点是层次结构清晰,易于查找,导航质量高。由于其采用了人工组织的方式,由专业信息人员对信息进行筛选加工,信息资源的质量和检索精度都比较高。但是其信息数据库规模相对较小,某些分类主题下收录的内容不全面,影响了系统的查全率,而且其更新速度与工作人员的工作时间挂钩。目录型搜索引擎比较适合查找概括性的、综合性的主题概念。常见的目录型搜索引擎有Yahoo,Sina,Sohu等。

③元搜索引擎

元搜索引擎将多个独立的搜索引擎集中到一起,提供统一的查询界面。当用户输入检索式后,元搜索引擎将它分别提交给这些独立搜索引擎,这些独立的搜索引擎有自身独立的资源库和内部算法。元搜索引擎将各个搜索引擎得到的结果通过聚合、去重、排序等处理,将最终的结果返回给用户。元搜索引擎的实质是利用网站链接技术形成的搜索引擎集合,它不需要研发相关的支持技术,也无法控制和优化检索结果。常见的元搜索引擎有Ixquick,Vivisimo等。

(4)搜索引擎的效果评测

目前采用的最为普遍的搜索引擎效果评测指标包括召回率和正确率。召回率(R)又称查全率,正确率(P)又称查准率。它们可以通过下列量化数据进行定义。

表3-3 检索效果量化评价指标

一般来说召回率和正确率存在一定的矛盾关系。为了提高召回率,必定要扩大检索范围,这在一定程度上会影响系统的正确率。如果要进一步提高正确率,则可能需要在检索词上更精确些,这就导致查出的相关文档数有所降低,因此要将召回率和正确率调到一个合适的平衡状态。

对于搜索引擎来说,数据库收录的网页信息不全面,对索引词的选取出现偏差,标引不够详尽以及自然语言本身的歧义现象都会影响到召回率和正确率。所以要提高搜索引擎的效果,需要在一定程度上控制数据库收录范围,并且对网页信息进行预处理和索引词抽取过程中,需要考虑到语言的因素。随着语言信息处理技术的发展,语言自动排歧技术也有了一定的发展,随着这些技术的应用,相信搜索引擎的检索效果会不断得到提高。

对于用户来说,检索要求不明确、选择不同的搜索引擎、检索途径和方法单一等,都会影响到检索的效果。所以,我们更需要通过学习信息检索知识,了解不同搜索引擎的特点,灵活运用各种检索技术、检索方法和检索途径,针对不同的检索目标,合理选择搜索引擎,兼顾和调整对召回率和准确率的要求。

2.常用中文搜索引擎

(1)百度(http://www.baidu.com)

①百度概况

百度是由李彦宏和徐勇于1999年在美国硅谷首先创建,2000年1月成立于北京中关村,并于2001年10月22日正式发布。百度是国内最早商业化的索引型搜索引擎,也是目前全球最大的中文搜索引擎。“百度”一词源于辛弃疾的“众里寻他千百度”,这一名称也表明了百度对中文信息检索技术的不懈追求。

百度搜索引擎把超链接分析技术、内容相关度评价技术结合起来,使得百度在检索效果和检索效率方面有自己独到的优势。此外,百度还为主要的门户网站提供最先进的中文搜索引擎技术,加上其数量庞大的搜索联盟会员,将百度搜索通过各种方式结合到自己的网站,使得用户无须上百度,就能进行百度搜索。同时,百度还提供WAP和PDA搜索服务,使得用户可以通过手机和掌上电脑通过无线平台进行百度搜索。

②界面、检索功能及检索方法介绍

在检索框的上方显示了百度提供的几个常用的搜索服务,包括新闻、网页、贴吧、知道、MP3、图片、视频以及地图等,默认的搜索服务是网页。除了这些常规的搜索服务,百度还提供一些导航、社区等网络服务。点击界面上的“更多”,显示百度提供的更多服务。

百度提供基于关键词的简单检索和高级检索两种检索方式。对于简单检索,用户只需要在检索框中输入关键词,点击“百度一下”按钮就可以得到搜索引擎返回的结果。简单检索除了支持运用AND、OR、NOT和括号进行布尔逻辑组配构成的检索式,还支持各类检索限制,如“inurl”表示在指定的URL中检索。百度的高级检索提供相关检索和限定检索功能,能对关键词的匹配方式、文档格式和特定的网站等方面进行限定。此外还可以通过点击主界面的“搜索设置”,对界面和结果显示进行设置。

百度的结果显示以分页的形式给出,每条结果包括摘要、百度快照、URL等信息,并通过高亮的方式显示检索词。

图3-2 百度搜索设置页面

(2)天网(http://www.e.pku.edu.cn)

①天网概况

天网搜索引擎是由北京大学计算机系网络与分布式系统实验室开发的,它提供全文检索、新闻组检索、FTP检索,包括简体中文、繁体中文和英文三个版本,目前收集了大约100万个WWW页面和14万篇Newsgroup文章。同时,天网还是目前国内最大的FTP资源搜索引擎,搜索文件数据量超过了1000万,日访问量超过40万次。

②界面、检索功能及检索方法介绍

天网搜索提供“搜索网页”和“搜索文件”两个功能。点击上图中的“天网Maze”或在浏览器网址中输入“http://www.tianwang.com”都能跳转进入天网Maze界面。

图3-3 天网Maze页面

天网Maze提供Maze资源、FTP资源和网页资源的检索,也可以通过下载Maze客户端软件进行资源下载。天网的文件搜索还提供对限定文件类型的检索。用户在输入框中输入要查询的文件名(可以包括“*”、“?”和空格等),选择所需资源类型,然后点击“天网搜索”就可以获得相应的返回结果。结果显示包括文件类型图标、文件名、资源大小、日期、资源位置、资源类型等信息。单击文件名链接或资源位置链接可以获取FTP服务器上相应文件的信息。

(3)新浪(http://search.sina.com.cn)

①新浪网概述

新浪网创建于1998年12月,它提供包括地区性门户网站、移动增值服务、搜索引擎及其目录索引、免费及收费邮箱、博客、网络游戏以及电子商务等多种网络服务。新浪搜索引擎收录各类中英文网络资源,是一款目录型搜索引擎。

②检索功能

新浪的分类目录将所有的资源分成娱乐休闲、求职与招聘、艺术、生活服务、文学、计算机与互联网、教育就业体育健身医疗健康、社会文化、科学技术、社会科学、政法军事、新闻媒体、参考资料、个人主页、商业经济及少儿搜索等18个大类和1万多个细目。在浏览器网址栏中输入“http://www.dir.iask.com”即可进入分类界面。

新浪提供分类目录检索和关键词检索两种方式。分类目录检索就是按照分类目录所列出的目录,逐层点击,来获取所需的信息资源。关键词检索就是在界面中的检索框内输入相关关键词,然后选择资源类型,包括网页、图片、MP3、新闻标题、新闻全文、企业等,单击“搜索”后即可得到检索结果。

(4)其他常用中文搜索引擎

①搜狗:www.sogou.com;

②易搜:www.yisou.com;

有道搜索:www.yodao.com;

④中国搜索:www.zhongsou.com;

⑤索天下(元搜索引擎):www.suotianxia.com;

⑥万纬搜索(元搜索引擎):widewaysearch.com;

⑦聚合搜索(元搜索引擎):lsoso.com;

⑧元搜索(元搜索引擎):www.seekle.cn;

⑨星空(基于FTP的搜索引擎):sheenk.com;

⑩天狼(基于FTP的中英文搜索引擎):search.ustc.edu.cn。

图3-4 新浪分类目录页面

3.常用英文搜索引擎

(1)Yahoo(http://www.yahoo.com)

①Yahoo概况

Yahoo成立于1995年,是世界上最著名的网络资源目录,20世纪末互联网奇迹的创造者之一,其业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务。Yahoo中国网站(即雅虎http://cn.yahoo.com)于1999年9月开通。此外,Yahoo公司还利用其全球领先的YST技术,在中国推出了独立的搜索门户——易搜。

Yahoo提供类目、网站及全文检索功能。其分类目录比较合理,层次深,类目设置好,网站提要严格清楚,是目录型搜索引擎的典型代表。Yahoo主要采用人工的方式采集和处理网络资源,并由信息专家编制主题目录,保证了Yahoo的目录编制质量。Yahoo以其精心挑选的站点、广泛的内容成为广大用户上网查询的首选工具。其收录范围包括网站、新闻组资源、FTP资源等,并按内容划分为14大类,包括艺术与人文、商业与经济等等。

图3-5 Yahoo!主页

②检索功能

Yahoo主要提供主题分类目录浏览检索和关键词检索两种方式。从界面上可以看到Yahoo清晰的分类站点,并且对于每一个分类网站都提供关键词搜索。Yahoo提供的关键词检索是采用Web索引程序Yahoo Slurp从Internet上采集信息而建成的一个网页索引系统。Yahoo的搜索结果以记录的形式显示,包含网页标题、出处、发布网站、时间等信息。用户可以通过相关搜索链接看到和网页内容相关的其他内容,也可以在检索结果中进行二次检索。

(2)Google(http://www.google.com)

①Google概况

Google公司组建于1998年9月,2000年开始商业运作。“Google”一词源自数学术语“Googol”,表示一个1后面跟着100个0,体现了Google对于整合海量信息的远大目标。在短短几年的时间里,Google成长为全球规模最大和最优秀的支持多语种(Google支持57种语言)的搜索引擎。

Google的成功源于其强大的功能和技术支持。Google拥有全世界最大的搜索引擎数据库,收录资源包括网页、图像、多媒体、新闻组、FTP资源及其他各类资源。它采用超文本链接结构分析技术和大规模的数据挖掘技术,能对相关网址进行自动分类。

除了提供Web检索服务外,Google还推出了如检索器、天气查询、电子邮件等许多优秀的服务,其开发的GoogleEarth还提供3D地图搜索功能,深受用户欢迎。

②检索功能

目前,Google在中国的服务器转移到中国香港,国内用户输入“google.com”,浏览器会自动出现Google的中文简体版界面。

Google提供网页、图片、视频、新闻等多种检索服务,点击上图的“更多”还能显示更多的网络服务。

Google的检索方式包括简单查询和高级搜索,基本方式和实现与百度类似。单击界面右上方的“搜索设置”,可以根据用户自身的爱好进行设置,包括对语言、文件格式、搜索特定网页等等进行限定。此外,Google还提供“iGoogle个性化首页”的功能,点击后,会出现个性化界面,用户可以根据自身的偏好,添加不同的版块,修改主题,选择位置等等。

图3-6 谷歌搜索主页

(3)AltaVista(http://www.altavista.com)

①AltaVista概况

AltaVista是美国DEC(Digital Equipment Corporation)公司于1995年开发的能对整个网络信息资源进行检索的工具。AltaVista第一个支持使用自然语言进行检索,第一个实现高级搜索语法,同时还提供新闻组、图片、音视频文件的检索。2003年,AltaVista被Yahoo旗下的子公司Overture收购。

AltaVista以其检索速度快、用户界面友好、优秀的过滤功能和强大的高级搜索功能而被认为是世界上功能最完善、搜索精度较高的优秀搜索引擎之一。AltaVista的网页资源丰富,提供包括中、英等25种文字的网页。

②检索功能

AltaVista提供简单搜索、高级搜索和分类目录浏览检索。其简单检索提供针对网页标题、网页地址或特定域名进行的搜索,同时还可使用通配符“*”进行截断检索,当以检索词组方式出现的时候,词间默认关系是“OR”。点击主页中的“Advanced Search”,进入高级检索页界面,可以对搜索范围、文件过滤类型、语种、显示结果等进行设置。此外,点击主页上的“Directory”,还可以进入分类目录检索界面。其分类目录是根据Yahoo的分类目录体系构建的。AltaVista检索结果中的每条记录包括篇名、文件内容的前两行和URL等,鼠标点击带有下划线的链接,可以进入相应的网页。

图3-7 AltaVista搜索页面

(4)其他常用英文搜索引擎

①常见的基于HTTP资源的目录型搜索引擎

● About.com:about.com;

● AOL Search:search.aol.com;

● BUBL LINK:bubl.ac.uk;

● Cmasia.com:www.cmasia.com;

● Dmoz:dmoz.org;

● InfoSeek:go.com;

● Open Dictionary:w3k.org。

②常见的基于HTTP协议的索引型搜索引擎

● Alltheweb:www.alltheweb.com;

● ASK Jeeves:www.ask.com;

● Bing:www.bing.com;

● Excite:www.excite.com;

● Hotbot:www.hotbot.com;

● LookSmart:www.looksmart.com;

● Lycos:www.lycos.com;

● Oingo:www.oingo.com。

③常见的元搜索引擎

● ArboSearch:www.arbosearch.com;

● ByteSearch:bytesearch.com;

● Dogpile:www.dogpile.com;

● InfoGrid:infogrid.com;

● Ithaki:ithaki.net/dir.html;

● Ixquick:ixquick.com;

● Kartoo:www.kartoo.com;

● Mamma:www.mamma.com;

● MetaCrawler:www.metacrawler.com;

● One2Seek:one2seek.com;

● Search.com:www.search.com;

● SurfWax:surfwax.com;

● Vivisimo:vivisimo.com,clusty.com;

● WebCrawler:www.webcrawler.com。

④常见的基于FTP资源的外文搜索引擎

● Archie:www.archie.com;

● Filesearching:www.filesearching.com;

● FileZ:filez.com;

● Philes:www.philes.com;

● Tile.net:tile.net。