首页 理论教育检索技术及其应用-信息检索与图书馆利用

检索技术及其应用-信息检索与图书馆利用

【摘要】:2.5检索技术计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。下面介绍几种常用的检索技术方法。3.逻辑“非”逻辑“非”是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如, AND B,表示先执行“A OR B”的检索,再与B进行AND运算。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。(三)截词检索截词检索是计算机检索系统中应用非常普遍的一种技术。

2.5 检索技术

计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。下面介绍几种常用的检索技术方法。

(一)布尔逻辑检索

在实际检索中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以准确表达用户的信息检索要求。常用的逻辑算符号主要有以下几种。

1.逻辑“与”

逻辑“与”(用AND或“*”表示)是一种用于交叉概念或限定关系的组配。这种组配可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A和概念B的文献,可表示为:“A AND B”或“A* B”。检索结果如图2-1所示,图中阴影部分即为同时包含A和B两个概念的命中文献。

2.逻辑“或”

逻辑“或”(用OR或“+”表示)是一种用于具有并列概念关系的组配,它可以扩大检索范围,提高查全率。例如,检索含有检索项A或检索项B的文献,可表示为:“A OR B”或“A+ B”。检索结果是将含有检索项A的文献集合与含有检索项B的文献集合相加,形成一个新的集合。检索结果如图2-1所示,图中阴影部分即为包含A或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。

3.逻辑“非”

逻辑“非”(用“NOT”或“-”表示)是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“A NOT B”或“A-B”。检索结果如图2-1所示,图中阴影部分即为包含A且排除B的命中文献。

img3

图2-1 布尔逻辑关系图

在上述逻辑运算符中,其运算优先级顺序为NOT、AND、OR,但是可以用括号改变它们之间的运算顺序。例如,(A OR B) AND B,表示先执行“A OR B”的检索,再与B进行AND运算。

(二)位置检索

位置检索也叫临近检索。文献记录中词语的相对次序或位置不同,所表达的意思可能不同,其表达的检索意图也不一样。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法对检索词之间的相对位置进行限制。位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的邻近关系,并且可以不依赖主题词表直接使用自由词进行检索的技术方法。

不同的检索系统其位置算符的表示方法不尽相同,美国DIALOG检索系统的位置算符的用法意义如下:

1.(W)———With

(w)表示算符两侧的检索词相邻,且两者之间只允许有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(w)也可以简写为()。

例如: Aircraft() design可检索出含有Aircraft design的文献记录。

Computer() aided() design可检索出含有Computer aided design的文献记录。

2.(nW)———NWords

(nW)表示在此算符两侧的检索词之间最多允许间隔n个词(实词和虚词),且两者的相对位置不能颠倒。

例如: laser(1w) printer可检出含有laser printer和laser color printer的文献记录。

3.(N)———Near

(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。

例如: computer(N) network可检出含有computer network、network computer形式的文献记录。

4.(nN)———nNear

(nN)表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。

例如: computer(2N) system可检出含有computer system,computer code system,computer aided design system,system using modern computer等形式的文献记录。

5.(S)———Subfield

(S)表示其两侧的检索词必须是在文献记录的同一子字段中,而不限制它们在该子字段中的相对次序和相对位置的距离。在文摘字段中,一个句子就是一个子字段。

例如: computer() control(s) system可检出文摘中含有“This paper is concerned with an application of the computer control technique in a intelligent system fo rtesting innerwalls of pips.”这样一句话的文献记录。(www.chuimin.cn)

6.(F)———Field

(F)表示其两侧的检索词必须是在文献记录的同一个字段中,而它们在该字段中的相对次序和相对位置的距离不限。

例如: water() pollution(F) control表示在同一个字段中(如篇名、文摘、叙词等)同时含有water pollution和control的文献记录均可检索出来。

(三)截词检索

截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英、美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等。为了保证查全,就需要在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。截词检索就是为了解决这个问题而设计的,它既可保证不漏检,又可节约输入检索式的时间。所谓截词,就是指在检索词的适当位置截断,保留相同的部分,用相应的截词符代替可变化部分,计算机会将所有含有相同字符分词的记录全部检索出来。常用的截词符有“?”“*”“#”“$”等多种表示形式,截词法有前方截词、后方截词、中间截词(中间屏蔽)几种方式,不同的检索系统其截词符的表示形式和截词检索的方式是不同的。

例如,美国Dialog系统用“?”表示截词符,有以下几种截词方式。

1.前方截词

前方截词,也称后方一致。它将截词符放在一串字符的前面,用以表示以相同字符串结尾,而开头不同的所有词。

2.后方截词

后方截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。

后方截词又分为词尾的有限截断和词尾的无限截断两种情况。

(1)词尾的有限截断。相同字符串后可能变化一个字符时,则在其后使用一个“?”、空格、再加一个“?”,常用来表示检索词的单复数变化。例如,用system??可以查出system和systems的文献。

相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,??表示两个字符,???表示三个字符,依此类推。

(2)词尾的无限截断。相同字符串后可能变化任何字符串时,则在其后使用一个“?”。这种方法可以查找出含有相同字符串的所有检索词。例如,comput?可查出compute,computer,computation,computerisation等。

3.中间截词

中间截词又称中间屏蔽,是一种用截词符屏蔽词中不同字符的方法。例如,“woman”和“women”,可用“wom? n”代替;“defence”和“defense”可用“defen? e”代替。

截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约机时。

(四)字段限定检索

字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本索引字段和表达文献外部特征的辅助索引字段。基本索引字段包括篇名、文摘、叙词、自由标引词四个字段;辅助索引字段包括除基本索引字段以外的所有字段,像著者字段、著者机构字段、文献类型字段、语种字段等。每个字段都有用2个字母表示的字段标识符(或称字段代码)。在DIALOG检索系统的命令检索模式中,使用字段限制检索时,基本索引字段用后缀表示,即由“/”与基本索引字段标识符组成,放在检索词或检索式的后面。例如,computer and network/TI,DE表示将检索式限定在篇名字段(TI)和叙词字段(DE)中;辅助索引字段用前缀表示,即由辅助索引字段标识符与“=”组成,放在检索词或检索式的前面。例如,要查找著者SmithD.发表的文献,检索式可表示为AU= SmithD.。

在多数检索系统中,如果用户不对检索式注明字段限制范围,系统会默认在四个基本字段中检索。

(五)短语检索

短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索”。

(六)括号检索

用于改变运算的先后次序,括号内的运算优先进行。

(七)自然语言检索

即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。这种基于自然语言的检索方式又被称为“智能检索”,特别适合不太熟悉网络信息检索技术的人们。

(八)多语种检索

提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果,如天网,Alta Vista,Google等,支持多语种检索。

(九)模糊检索又称概念检索

当用户输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。例如,要查找“查询”一词时,模糊检索会反馈回包含了“查询”“查找”“查一查”“寻找”“搜索”等内容的网址。反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。现在大多数搜索引擎都有这种功能,只是模糊的程度不同。