首页 理论教育教育信息化:教师提升研究的信息检索技术

教育信息化:教师提升研究的信息检索技术

【摘要】:权值的大小,可以表示被检出文献的切题程度。加权检索是同布尔逻辑检索完全不同的匹配方法,但其结果是相同的,即凡是布尔逻辑的功能,加权检索也能实现。截词检索事实上只是计算机进行检索同与索引词之间的前方一致、后方一致、中间一致的对比匹配方式。因此截词检索是发挥计算机本身优势、应用计算机固有的指定位对比判断功能的一种检索匹配方式,也是计算机情报检索出现之后才产生的一种新的检索方法。

(一)加权检索

所谓加权检索,就是在检索时,给每一提问检索词以一个表示其重要度的数值(即所谓“权”),然后对含有这些检索词的文献进行加权计算,其和在规定数值以上者,作为答案输出。权值的大小,可以表示被检出文献的切题程度。若干命中文献按权值大小排列,这种提供情报信息的方式,本身就具有推荐的意义。

加权检索是计算机在将检索词同索引词进行对比时,同时统计权值。然后按值的大小顺序排列,用临界值确定输出的下限。这些工作,对于计算机来说是轻而易举的。加权检索是同布尔逻辑检索完全不同的匹配方法,但其结果是相同的,即凡是布尔逻辑的功能,加权检索也能实现。对于需要进行逻辑非的词,加权时可用负数。

(二)截词检索

所谓截词检索,就是把检索词截断(加上截词符号),让计算机按照字的部分片段同索引词对比。这里有前方一致(右截断)、后方一致(左截断)以及中间一致(左右同时截断)等三种方法。

(1)前方一致。查计算机(computer)这个检索词时,若用截断符号*,可写成computer*,则索引词computer,computers,computerise,computerize等均算命中。这种右截词的方法在计算机化的情报检索中被广泛使用,因为这样可以省去写各种词尾有变化的检索词的烦琐,有助于提高查全率。当然,在何处截断,这是要认真考虑的,如果把computer一词截断成com*,那么就会使所有com开头的索引词均被检出,其结果是误检率大增。(www.chuimin.cn)

(2)后方一致。把截断符号放在字根的左边,如,computer,那么计算机进行匹配时,索引词minicomputer,microcomputer均算命中。这种左截断检索方式,对于某些课题的检索是很有用的。例如*mycm,则可查出一大批有关抗菌素的文献。

(3)中间一致。把检索词左右都同时截断,如*computer*,则可命中那些其中间部分包含这个字根的所有索引词,如minicomputer*,minicomputers等。显然,这种左右同时截断的方法。在检索较广泛的课题的资料时,能获得较高的查全率。

截词检索事实上只是计算机进行检索同与索引词之间的前方一致、后方一致、中间一致的对比匹配方式。这种匹配方式虽然手工检索时也可进行,但计算机的效率要高得多。因此截词检索是发挥计算机本身优势、应用计算机固有的指定位对比判断功能的一种检索匹配方式,也是计算机情报检索出现之后才产生的一种新的检索方法。

(三)通用字符检索

英语中,有的字有不同的写法。例如颜色这个字有两种拼写形式——Colour,Color。硫也可分别拼写成Sulfur或Sulphur。这样的问题,不是截词检索可以胜任的。这样,为了使不同拼写方法的硫或颜色的索引词都能被检索出来,就出现了通用字符检索方法。它是将拼写有变化的字母处以通用字符符号,如Sul*ur。这样,计算机在进行匹配时,凡两端的字母相同,中间字母有所出人的都算命中,从而使Sulfur和sulphur同时都被命中。通用字符检索,也可以叫作插入截词。事实上它是前后方一致的匹配方式。