首页 理论教育搜索引擎处理流程及查询返回结果

搜索引擎处理流程及查询返回结果

【摘要】:搜索引擎的整个处理流程是非常复杂的,涉及大量的运算。搜索引擎整理信息的过程称为“创建索引”,其目的是提高搜索引擎查找的速度。接受查询用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回结果。目前,搜索引擎返回结果主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需信息的网页。要注意的是,各个搜索引擎的检索语法也不尽相同,需要时请到各网站查阅检索帮助。

Web中包含数以亿计的页面,它们被存储在遍布世界各地的服务器上。要使用这些信息,就必须找到它们。我们可以使用索引擎在浩瀚如烟的Web信息中高效地查找自己所需要的信息。

Web搜索引擎,通常简称为“搜索引擎”,是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。简单来说,搜索引擎是一种通过形成简单的关键字查询来帮助人们定位Web上的信息的程序。搜索引擎从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

搜索引擎有全文搜索引擎、目录索引等。全文搜索引擎是广泛应用的主流搜索引擎,其代表有著名的百度谷歌等。可以简单地认为www.baidu.com就是搜索引擎,但确切来说,它是一个提供搜索引擎的网站。

搜索引擎的整个处理流程是非常复杂的,涉及大量的运算。搜索引擎的工作大致可以分为以下三个部分:

(1)搜集信息

搜索引擎利用称为“网络蜘蛛”(Web spider)的自动搜索程序在互联网中发现、搜集网页信息。网络蜘蛛又称为“爬网程序”(Web crawler),从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样。高性能的爬网程序一天能访问数以亿计的网页。

(2)整理信息

将爬网程序收集来的原始信息进行文字提取、分析,按照一定的规则进行编排,并将其转换成存储在数据库中的关键字列表和URL列表。搜索引擎整理信息的过程称为“创建索引”,其目的是提高搜索引擎查找的速度。如果信息不按任何规则被随意堆放在搜索引擎的数据库中,那么每次找信息都得把整个数据库完全查阅一遍。

(3)接受查询

用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回结果。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它根据每个用户输入的查询关键字在索引库中快速检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。目前,搜索引擎返回结果主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需信息的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。(www.chuimin.cn)

目前全世界的搜索引擎有数千个,这些搜索引擎的基本用法是在搜索框内输入要查找内容的关键字或词,再单击搜索按钮即可。但是用这种方法检索返回的结果中可能会包含大量无关的信息,为了提高检索的精确度,可以采取以下一些措施:

①使用更为具体的关键字。用户提供的关键字越具体,搜索引擎返回无关Web页面的可能性就越小。

②使用多个关键字来缩小搜索范围。用户提供的关键字越多,搜索引擎返回的结果越精确。

③在关键字上加引号。在关键字上加引号,可以让搜索引擎不拆分查询关键词,从而实现精确匹配查询。

④检索英文信息时,许多英文搜索引擎可以让用户选择是否要求区分关键字的大小写,这一功能对查询专有名词有很大的帮助。

⑤大多数搜索引擎都允许在搜索中使用逻辑运算符AND和OR。

⑥大多数搜索引擎都支持在搜索关键词前冠以加号(+)来限定搜索结果中必须包含的词汇,用减号(-)来限定搜索结果不能包含的词汇。

⑦还可以通过特定的语法查询来限定搜索范围。如在使用百度搜索时,可以使用语法格式“intitle:关键字”把搜索范围限定在网页标题中。要注意的是,各个搜索引擎的检索语法也不尽相同,需要时请到各网站查阅检索帮助。