首页 理论教育信息技术实践:评价检索效果指标

信息技术实践:评价检索效果指标

【摘要】:表6-1检索效果评估相关数据表检索者的最终目的是要求达到查全率和查准率均为100%,这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系。2.查全率和查准率的局限性查全率和查准率虽然是目前用来衡量检索效果的相对合理的指标,但它们却存在着难以克服的局限性。3.影响查全率和查准率的主要因素对用户来说,最关心的是检索效果,而影响检索效果的主要因素有信息标引的广泛性和用户检索标识的专指性。

检索效果是指信息系统检索信息的有效程度,反映了信息系统的检索能力。检索效果包括检索的技术效果和经济效果。技术效果是由信息系统完成其功能的能力确定,主要指性能和质量。经济效果由完成这些功能的价值确定,主要指信息系统服务的成本和时间。

克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了六项评价系统性能的指标,它们是收录范围、查全率、查准率、相应时间、用户负担和输出形式。其中,查全率和查准率是两个最主要也是最常用的指标。

1.查全率和查准率

查全率(recall ratio)是指检索出的相关信息量与信息系统中的相关信息总量之比,衡量系统检索出与课题相关信息的能力,计算公式如下:

查准率(precision ratio)是指检索出的相关信息量和检索出的信息总量之比,衡量系统拒绝非相关信息的能力,计算公式如下:

查全率和查准率两者结合,表示信息系统的检索效率。相关信息和非相关信息在检索效果的分析中总是相辅相成的,其关系可参见表6-1。

表6-1 检索效果评估相关数据表

检索者的最终目的是要求达到查全率和查准率均为100%,这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系。通常折中检索,即查全率一般在60%~70%,查准率一般在40%~50%,这是检索的最佳状态。

2.查全率和查准率的局限性

查全率和查准率虽然是目前用来衡量检索效果的相对合理的指标,但它们却存在着难以克服的局限性。

查全率的局限性主要表现在:它等于检索出的相关信息与存储信息中的相关信息之比,但很少有人事先确知存储信息中相关信息究竟总共有多少,而只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假设”是指检索出的相关信息对用户具有同等价值,但实际并非如此。

查准率的局限性主要表现在:如果检索结果是题录式而非全文式,由于著录的内容简单,用户很难判断检索到的信息是否与课题密切相关,而必须寻找到该题录的全文,才能真正判断该信息是否符合检索课题的需要。同时,查准率中所讲的相关信息,也具有“假设”的局限性。

产生这种局限性的主要原因是在“相关性”这个概念上。“相关性”概念本身,主观成分颇多。不同的课题,对检索信息相关性的要求不同,即使同一课题,随着时间、地点、条件的不同,对检索信息的相关性要求也会有很大出入。例如,在开始确定一项新的研究计划时,对查全率要求很高,希望不漏掉任何一个重复研究项目的情报;而在进行这项研究的过程中,为了核实或补充某个问题,有时又需要很高的查准率。因此,前面所说的查全率和查准率,都是相对的查全率和查准率,而不是绝对的查全率和查准率。它们只能近似地描述检索效果。在评价检索效果时,必须谨慎使用这两个概念。(www.chuimin.cn)

在实际检索中需要根据具体的检索课题来调整查全率和查准率。用户常常是经过几次检索来调整符合检索课题需要的查全率和查准率。在多数情况下,应该在查全基础上逐步利用限制检索来逐步提高查准率。

3.影响查全率和查准率的主要因素

对用户来说,最关心的是检索效果,而影响检索效果的主要因素有信息标引的广泛性和用户检索标识的专指性。标引的广泛性是就标引时揭示信息主题基本概念的广度而言,是支配查全率的重要因素;检索标识的专指性是就检索标识表达主题的基本概念的专指度而言,是支配查准率的重要因素。

对一个信息系统来讲,这些都是影响查全率和查准率的客观因素:系统内信息存储不全,收录遗漏严重;索引词汇缺乏控制;词表结构不够完善;标引缺乏详尽性,没有网罗应有的内容;信息分类(标引)专指度缺乏深度,不能精确地描述信息主题;组配规则不严密,容易产生模棱两可或歧义现象等。

对用户来说,影响查全率和查准率的主观因素有:检索课题要求不明确;检索系统选择不恰当;检索途径和方法过少;检索词缺乏专指性;检索面宽于检索要求;用词不当;组配错误等。

4.提高检索效果的措施和方法

要提高检索效果,可以参考使用以下辅助性措施和方法。

(1)提高检索系统的质量,包括数据库收录信息的范围不但要广泛,而且要切合课题检索的要求;著录的内容详细、准确,辅助索引完备;具有良好的索引语言的专指性与网罗性及其标引质量等。

(2)提高用户利用检索系统的能力,使之具备一定的检索语言知识,能选取正确的检索词,并能合理使用逻辑组配符完整地表达信息需求的主题;能灵活运用各种检索方法和检索途径等使检索系统最大限度地发挥作用。比如,全面准确地表达检索要求,合理使用信息、检索点。根据不同检索课题的需要,适当调整对查全率和查准率的要求。

(3)制订优化的检索策略,尽量准确地表达检索要求,合理调整查全率和查准率。由于查全率和查准率是互逆的,所以,需要根据课题的具体要求,来调整两者的比例关系。如需了解某项研究的概况、申请专利科技查新、开题、立项等则要求查全率高;如需了解某项研究的最新进展、检索新的课题则要求有较高的查准率。总之,选用泛指的检索词,或尽可能增加与检索主题概念相关的检索词的数量,查全率就高;选用专指性的检索词或由若干个检索词组配的专指概念的检索词,查准率就高。只要掌握了这些方法和技巧,并在具体检索中合理运用,就能得到满意的检索结果。

不同的检索课题,不同的信息需求,对查全率和查准率的要求是不同的,表6-2给出了调整查全率和查准率的一些措施,供用户检索时选用。

表6-2 调整查全率和查准率的措施