首页 理论教育东南亚网络信息检索导论:工具、技术与方法

东南亚网络信息检索导论:工具、技术与方法

【摘要】:信息资源检索工具的使用方法是技术,不同的信息检索工具有相应的检索技术。一个联机检索系统主要由计算机、检索终端、通信网络、数据库4个部分组成,其特点是收录信息内容广泛、报道及时、查找迅速、资源能实现共享以及检索途径多、检索方便等。目前美国的DIALOG联机检索系统是世界上规模最大的一个联机检索服务机构。传统的信息检索技术传统的信息检索技术主要有布尔逻辑检索、位置检索、截词检索、限制检索等。

信息资源检索工具的使用方法是技术,不同的信息检索工具有相应的检索技术。

1.信息资源检索的工具

信息资源检索工具(以下简称检索工具)是人们用来报道、存储和查找各类信息资源的工具。一般来说检索工具都具有存储和检索的职能,它对自身收录的文献有详细的描述,并为用户检索所需信息提供服务。与之前的文献及检索语言一样,检索工具的分类方法和所依照的标准也有多种。如:按照检索方式划分,检索工具可以分为手工文献检索工具和计算机文献检索工具(另一种说法是按此分类方法还可以划分出机械检索系统);按出版和载体形式划分,则可分为印刷、光盘、磁带、卡片、微缩制品、数据库等不同形式;按照收录范围划分,检索工具包含综合性文献检索工具、专业性文献检索工具和单一性文献检索工具3种;按照收录文献的对象和揭示方式,又可划分为目录、索引和文摘形式。我们重点介绍第一种分类形式划分出的手工文献检索工具和计算机文献检索工具。

(1)手工检索工具

手工检索工具是指依靠人工来查找信息的检索工具,是传统的检索方式。在计算机发明之前,人们采用的检索工具都是手工检索工具,即使是计算机发展到今天,手工检索工具依然在某些方面发挥着重要的作用。手工检索工具的主要类型包括书本式的目录、题录、文摘和各种参考工具书等。

①目录(Catalogue)

目录是对出版物进行报道和对图书资料进行科学管理的工具。对于我们常用的科技文献检索而言,我们有必要了解一些常用的目录。比如:为记录国家出版的全部图书而出版的国家书目,对中国而言有《全国总书目》和《全国新书目》;图书馆、资料室等藏书部分的藏书目录以及汇集若干个图书馆和信息部门馆藏信息的联合目录等。

②题录(Title)

题录是报道和揭示单篇文献的外表特征(如作者、题目等),从目录基础上发展起来的检索工具。和目录不同,题录的著录对象是文献中的论文或部分内容,而目录的著录对象是整部文献。比较有名的题录如美国《化学题录》、《中文科技期刊题录数据库》等。

③文摘(abstract)

文摘是系统报道、积累和检索文献的主要工具,是二次文献的核心。它和题录相似,只是在题录的基础上增加内容摘要,这就使得文摘揭示的不只是文献的外表特征,还包括该文献的内容特征。文摘的目的在于使用户花费较少的时间和精力掌握有关文献的现状及其基本内容,了解所研究事物的发展水平,从而吸取别人已有的工作成果,避免重复劳动。对于没有能力阅读外文全文文献的人来说,文摘成了其掌握外文文献的重要途径。

④参考工具书(reference book)

参考工具书是一种特殊类型的图书,它收录了某一范围内的有关资料,为用户提供了基本知识和文献线索。根据图书的功用可以将工具书划分为检索类工具书、词语类工具书、资料类工具书、表谱内工具书、图录类工具书和边缘类工具书6种类型。他们都是检索信息的重要工具。

我们使用手工检索,一般是为了查找已知文献外部特征的文献或者是根据某个主题,查找与之有关的文献。根据目的的不同,其检索途径也不一样。要查找已知文献外部特征的文献,只需要根据用户已知的外部文献特征如责任人(编者、著者、译者等)、题名、文献代码、出版地等信息进行查找;而对于围绕某个主题查找文献,则需要通过文献的内容特征,这个时候就可以使用上一小节我们介绍的描述文献内容特征的检索语言即可。

手工检索的优点在于检索方便,检索人员可以随时根据自己的需求修改策略,这样查到的文献一般是检索人员需要的文献,即查准率高。当然,手工检索的缺点也很明显,全靠人工进行检索,检索效率和速度都不高,而且检索人员的工作量相对较大。然而,手工检索系统在我们现实生活中,还在发挥重要的作用。

(2)计算机检索系统

随着计算机的发明,通过计算机来进行信息资源检索开始取代手工检索系统的主导地位。系统的工作流程大致是先将各种信息通过一定的形式存储在计算机系统中,然后进行加工处理,形成可供检索的数据库。检索时,用户输入自己想要的资源相关信息(通常是自然语言、提问式输入),并且选定所选数据库,计算机通过一些特定软件的内置算法,实现检索提问与数据库文件之间的匹配,并通过用户界面显示出结果。

一个计算机检索系统主要是由计算机硬件、计算机软件、数据库等3个部分按照设备之间的关系、软件的算法等联系在一起。计算机检索可以分为光盘检索、联机检索和网络检索。

①光盘检索

光盘检索系统主要由光盘数据库、光盘驱动器、计算机等组成,可以在单机上进行检索的称为单机光盘检索,通过联网方式获取光盘数据库文献的检索方式称为光盘网络检索。

②联机检索

联机检索是指用户利用终端设备(如调制解调器、打印机、检索终端等),通过国际通信网络,与本地计算机检索系统或远程的计算机检索系统的主机连接,从而检索世界各地存储在计算机数据库中的信息。一个联机检索系统主要由计算机、检索终端、通信网络、数据库4个部分组成,其特点是收录信息内容广泛、报道及时、查找迅速、资源能实现共享以及检索途径多、检索方便等。一般来说它包括回溯检索、定题检索、联机订购、电子邮件4种服务方式。目前美国的DIALOG联机检索系统是世界上规模最大的一个联机检索服务机构。

③网络检索

网络检索系统就是用户连接互联网的计算机,通过用户终端输入检索条件,然后从互联网提供的网络数据库、出版物等网络信息资源中提取符合用户所需信息的检索系统。在第一章中,我们介绍了网络的概念和原理、网络发展初期,网络检索系统的主要工具是基于传输和下载网络信息的,例如FTP、BBS、e-mail等等。现在,网络信息检索系统已经成为人们进行学术活动不可缺少的一部分,其主要优点是搜索效率高、查全率较高等等。随着检索算法的不断改进,网络检索系统的综合效率和效果也在不断提高。关于互联网信息检索,我们将在本章的第二节中详细介绍,这里就不赘述。

2.信息资源检索技术

信息检索技术针对不同的文献检索系统有很大的区别。此处,我们讲的信息检索技术主要是针对计算机检索系统所采用的技术。

(1)传统的信息检索技术

传统的信息检索技术主要有布尔逻辑检索、位置检索(或词位检索)、截词检索、限制检索等。

①布尔逻辑检索

布尔逻辑检索是较早开发出来的、在信息检索系统中应用广泛的比较成熟的检索技术,它利用布尔逻辑运算符进行检索词的逻辑组配。常用的布尔逻辑运算符有逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)等三种。下面,我们将举例说明这三种运算符对检索词的组配所代表的新的检索概念。

例:马来西亚 AND 旅游

原概念之间具有交叉关系。所表示的新的概念是所需要的文献中既要包含“马来西亚”,也要包含“旅游”。使用逻辑与,缩小了检索范围,增强了专指性,从而可以在一定程度上提高查准率。

马来西亚 OR 旅游

原概念之间具有并列关系。表示的新的概念是所需的文献中或者包含“马来西亚”,或者包含“旅游”(当然二者都有的文献也被包含进去)。使用逻辑或,扩大了检索范围,但能提高检索信息的查全率。

马来西亚 NOT 旅游

原概念之间具有概念排除关系。所表示的新的概念是所需的文献中只包含“马来西亚”,而不包含“旅游”(二者都包含的被排除在外)。使用逻辑非,缩小了检索范围,增加了准确性,但是也容易将有关信息剔除,影响了检索信息的查全率。

布尔检索在光盘检索、联机检索和网络检索中都有着广泛的应用,但是不同的检索工具中布尔逻辑技术有所差异。使用时我们要注意区分不同的检索工具中布尔逻辑检索的不同表现形式和规则。此外我们还要注意运算符的执行顺序,一般是先括号,然后依次为NOT、AND、OR。

②截词检索

截词检索是指在检索词的合适位置利用截词符将其截断,而后进行检索的技术。大部分检索系统都提供截词检索。这种技术比较适合当用户不能完整的记起所需文献的某个外部特征(如题目),或者需要检索一类具有相近外部特征的文献时使用。他可以预防漏检,提高查全率。

截词的方式有多种,根据截断的字符数量来划分,可以分成有限截断和无限截断,有限截断是指通过截断符“?”的个数来具体指定截断的字符个数;而无限截断不需要具体说明截断的个数,通常只需要使用“*”来代替被截断的字符。按照截断的位置划分,可以分为前截断、中截断和后截断。下面分别举例说名这三种截断技术。

例:a.前截断

输入“?s”,可以查到包含“as,is,CS …”(如果默认不区分大小写)等词的文献。

输入“*s”,则可查到更多的包含如“his,this,is …”等词的文献。目前windows系统下提供此类搜索。例如在资源管理器查询中输入“*.jpg”可以查到当前目录下的所有JPG格式的图片。

b.中截断

输入“c?p”,可以查到包含“cap,cup …”等词的文献。

输入“h*t”,可以查到包含“hit,hurt,heat,hot …”等词的文献。

c.后截断

输入“pos*”,可以查到包含“position,possible,pose,posada …”等词的文献。

③位置检索

位置检索是以数据库原始记录中检索词之间的特定位置关系为对象的运算。采用具有限制检索词之间的位置关系功能的位置逻辑运算符进行组合运算,可以弥补逻辑布尔检索中未考虑检索词词间关系而容易造成误检的缺点。在不同的检索系统中,位置逻辑运算符的种类和表达式会有差别,使用的时候,需要针对所用的系统选择逻辑运算符。下面以著名的联机检索系统DIALOG中的位置逻辑运算符为例,来说明位置逻辑运算符的运算机理。

在词位置检索中,常用的位置运算符有(W)与(nW)、(N)与(nN)等,其作用是使检索语句发生概念改变。具体如下:

(W)是指在两侧检索词之间最多只能插入一个空格、标点、连接符,并且两侧检索词的次序不能发生颠倒。例如:儿童(W)文学,可以检出含“儿童文学”、“儿童,文学”、“儿童—文学”等文献;而(nW)是指两侧检索词词序不发生变化,但是允许在两个词之间加入n个单元词。例如:儿童(2W)文学,可命中“儿童文学”、“儿童童话文学”、“儿童诗歌文学”等等。

(N)表示两次检索词之间不能插入单词或字母,但是词序可以颠倒。(nN)表示两端的检索词顺序可以颠倒,并且可以插入n个单词。例如:控制(N)系统,能命中“控制系统”、“系统控制”;而控制(2N)系统,能命中“控制线性系统”、“系统姿态控制”、“系统自动控制”等等。

实际上还有(X)和(nX)这类,不过其作用与(W)与(nW)相似,只不过要求两侧的检索词相同,原则上可以认为是(W)与(nW)的一种特殊情况。

子字段包括文摘字段中的一个句子或标题字段的副标题。子字段检索使用的位置运算符为(S)。它表示两个检索词必须同时出现在记录的同一子字段中,不限制其在子字段中的次序和中间允许插入的词数。例如:儿童(S)文学,可以检索到题名为“文学对儿童智力发展的影响”的文献。

④限制检索

限制检索是通过限制检索范围来达到提高检索准确率的技术。限制检索的方式有很多,常用的限制检索方式是字段限制检索。

数据库记录是由若干个字段组成的,字段检索是把检索词限定在数据库记录的特定字段中,如果记录的相应字段中有输入的检索词,则为命中记录。数据库提供的可供检索的字段通常有基本索引字段和辅助索引字段两大类。基本索引字段用来表示文献的内容特征,如TI(篇名、题目)、AB(摘要)、DE(叙词)等;辅助索引通常用来表示文献的外部特征,如AU(作者)、JN(刊物名称)、PY(出版年份)等。在检索提问式中,还可以利用“/”对基本索引字段进行限制。例如“(童话/TI OR儿童文学/AB)AND PY=2000”表示要查找一篇2000年出版发行的篇名(或题目)中包含“童话”一词或者摘要中包含“儿童文学”一词的文献。

(2)新型的网络资源检索技术

随着网络技术的不断发展,互联网已经逐渐成为人们生活中重要的组成部分。同时,也让我们面临着一个难题:如何在海量的网络信息中找到自己需要的资源。近年来,随着人工智能的发展,语言学和计算机的融合,网络信息检索技术有了较大发展。这里我们简要介绍基于文本的全文检索技术、基于图像的检索技术和基于视频的检索技术。

①基于文本的全文检索技术

这种检索技术应用比较普遍。传统的检索技术中,只是根据文献的外部特征或比较简单的文献内部特征来进行检索。全文检索技术,是对文献全文的信息进行扫描,来匹配用户的检索词(或语句)。通常来说,它包括以下几个步骤:一是提取文本,从网站资源、数据库资源等提取出文本;二是文本预处理,它涉及的技术有停用词删除、词干提取、索引词选择、建立词典等等,通过文本的预处理,使得文本在保持相当信息量的同时,减小了处理难度;三是建立索引,根据预处理中选择的索引词集合,建立基于索引词的索引,一般是倒排索引;四是完成检索,采用一定的文本检索模型,如布尔模型、向量空间模型、概论论模型等,与检索词(语句)进行匹配,并返回命中结果,模型选择的不同,直接决定了检索效果的好坏。

②基于图像的检索技术

网络上的文献形式越来越多样化,如何实现对没有文字信息的图像检索具有一定的挑战。目前,关于图像的检索技术主要是基于内容的图像检索。按照不同层次来划分,基于内容的图像检索可以分成基于视觉特征的图像检索、基于对象类型的图像检索和基于抽象属性的图像检索。后两个层次通常被称为基于语义的图像检索。在基于视觉特征的图像检索中,通常选择具有代表性的一幅示例图像或草图来构造查询,然后由系统超找与视觉内容上比较相似的图像,这就是所谓的基于图像实例的检索。基于对象类型的图像检索查找图像中所包含的特定类型的对象,通常需要对图像中所描述的内容进行一定程度的逻辑推理。基于抽象属性的图像检索则涉及对图片的整体理解,根据图像中的对象和情景抽象出图像所表达的内容,需要复合知识和复杂的推理,把图像的内容和抽象的概念描述联系起来,这类检索还很少见到,研究工作和系统大多在基于对象类型的图像检索这个层次。

③基于内容的视频检索技术

随着数字视频技术和存储技术的发展,网络上的视频资源也在不断膨胀。如何使用户搜索到自己爱看的电影、视频片段等,是摆在研究者面前的一道难题。目前的做法大都是基于视频标题的检索,这种检索方式对于确切知道标题的检索来说很有效,但是即便这样,仍会使很多视频信息被漏检。目前,网络对上传视频进行审阅的工作,大都是人工完成的。试想如果我们发展了基于内容的视频检索技术将会在很多方面带来方便。基于内容的视频检索技术的研究主要分为基于原数据、基于文本、基于关键帧、基于语义特征、基于对象和基于多种技术综合等方向。由于大部分技术都还不成熟,这里不做详细说明,但是基于内容的视频检索技术对普通用户来说还是有很大的诱惑力。相信不久的将来,这种技术能够逐渐成熟,进而实际运用起来。

关于新型的网络资源检索技术还有很多,比如基于本体的智能检索技术、数据挖掘技术、自动标引和分类技术等等。需要说明的是,对于不同的计算机检索系统需要采用不同的检索技术。有些技术是联机检索、光盘检索、网络检索都支持的,而有些则是网络检索系统所特有的。掌握计算机检索技术是提高检索效率的关键。

3.信息检索的方法

有了检索工具和检索技术,还需要通过一定的检索方法来提高检索的效率。所谓检索方法,是指根据现有条件,能够尽可能地省时省力并且获得最佳检索效果而采用的方法。根据检索要求的不同,检索方法可以分为常规法、追溯法和交替法3种。

(1)常规法

常规法又叫工具法,它利用文摘、索引、题录等各种文献检索工具查找文献或者通过计算机检索系统直接查找文献。常规法是文献检索中最常用的方法,按照课题对时限的要求,它可以分为顺查、倒查和抽查3种方式。

顺查是以课题研究开始年代为起点,按照时间的发展顺序,利用文献检索工具逐年查找的方法。顺查法的优点是可以通过检索来系统地了解课题的发展历程,有助于从宏观上对课题进行掌控,并且查准率和查全率都比较高,但检索的工作量比较大。该方法适用于有较强理论性和学术性的科学研究。

倒查和顺查相反,是指按时间顺序由近及远查找,直到找到符合自己需要的文献为止。该方法的优点是既可以减小检索的工作量,又能找到课题最新的研究状况。查找效率比较高。这种检索方法比较适合有一定课题基础的情况下,进行检索。

抽查是指选择与课题有关的文献信息最可能出现的时间段进行重点检索。其优点是能在较短的时间内检索出较多的关于课题的文献,但前提是必须要对课题有一定程度的了解,能够判断相关文献最可能出现在哪个时间段,否则很可能会查找不到需要的文献。

(2)追溯法

追溯法可以分为向前追溯法和向后追溯法。向前追溯法是指利用已有文献中的参考文献、注释和相关说明等线索进行追溯查找的方法。利用向前追溯法进行检索是一种方便可靠的方法,在检索工具较为贫乏的时候,这种方法很有效。由于文献中列出的参考文献条数有限,并且多数参考文献与该文献不处于同一年代,这种方法不利于找到最新的文献。向后追溯法是利用文献之间的引用和被引用关系,进行文献的追溯查找。在这种方法中,一般要利用引文索引。某篇文献的引文索引中所列出的文献内容必定比该文献更新,某些观点更有创新性。采用这种方法,有助于查到一些比原文献更能满足检索者需要的有创新性观点的文献。同时,对于边缘学科和交叉学科,这种方法也比较有效。

(3)交替法

交替法又称综合法、循环法,它是对常规法和追溯法的综合。根据结合的不同,交替法可以分为复合交替法和间隔交替法。复合交替法可以是先常规法后追溯法,指先利用文献检索工具检索出一些满足需要的文献,然后利用追溯法,扩大检索范围;或者是先追溯法后常规法,即先利用已掌握的文献资料,分析查找这些文件所适宜的检索途径,而后利用检索工具进行查找。间隔交替法是先利用常规法找出一批文献,然后用所附参考文献扩大检索范围,用抽查法跳过几年查找。交替法对提高检索效率有很大帮助。