首页 理论教育网络信息检索及工具:教育技术学的成果

网络信息检索及工具:教育技术学的成果

【摘要】:Web检索工具是人们获取网络信息资源的主要检索工具和手段。网络目录的多层结构使用户能通过范围广泛的主题,以及精细调整的类目,查询到符合要求的网站和文本信息。搜索引擎也是目前Internet对信息资源进行组织的主要方式。因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息。

Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的。如何快速准确地在网上找到需要的信息已变得越来越重要。

Web检索工具是人们获取网络信息资源的主要检索工具和手段。Web检索工具常见的有:目录型检索工具、索引擎。

1.目录型检索工具

因特网上的目录型检索工具一般称为网络目录(Web Directory),又称分类站点目录、专题目录或主题指南、站点导航系统等。它是由网络开发者将网络资源收集后,以某种分类法进行组织整理,并和检索法集成在一起的信息查询方式。

网络目录一般是通过引导网络用户的查询概念(而不是确切的词条)来帮助用户找到所需的网络信息。一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。这些主题范畴一般有10~20个,主题链接到第二层目录(另一个页面),然后在第二层目录再分出子目录,一般到第四级。逐层点击,它将会罗列出一层层的目录清单,所有的选择只用鼠标点击链接来实现。

网络资源数不胜数,任何分类目录都不可能包罗所有的网页,多数网络目录都包括下列典型的一级类目,如商业贸易(business and commercial)、计算机和网络(computer and Internet)、时事(current events)、娱乐和休闲(entertainment and recreation)、体育(sports)等等,遇到交叉的主题,网络目录会在相关的类目下显示不同的路径。

网络目录的工作过程。网络目录像其他网页一样工作,超链下标有下划线或者显示链接标志(手形光标),以区别于其他文本的颜色。选择一级类目后,看到的二级类目与它页面相似,也是一个简单的类目清单,或者提供一些目录之外的超链。这样也许在二级类目就能找到感兴趣的网站,不必再深一层浏览。如果深入到三级类目,会发现更多的是外部Web网页清单。

一个网络目录到底有几层,取决于多种因素。其一与使用的目录有关,有些首页目录之下多达八层;其二取决于所选的类目;其三与主题有关,一般在主题下有两到三层。网络目录的多层结构使用户能通过范围广泛的主题,以及精细调整的类目,查询到符合要求的网站和文本信息。

图6-7 雅虎中文(www.chuimin.cn)

2.搜索引擎

搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可称为Internet上具有检索功能的网页。

搜索引擎也是目前Internet对信息资源进行组织的主要方式。搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。由于不需要人们的介入,速度得以大大的提高。其覆盖面和及时性也得以大大的提高。

Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。

搜索引擎的数据检索方式主要是关键字的匹配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等。能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序。

由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前100个词。此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示。因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息。

图6-8 百度搜索