鉴于语言模型在很多问题的研究中都获得了成功的应用,很多学者也提出了将改进的语言模型用于信息检索的方法。qn和文档D,那么,文档模型的任务就是先建立文档的语言模型MD,然后根据概率P对文档进行排序。查询模型的基本思想是:假定查询Q=q1q2…那么,该模型的任务就是先估计文档模型P,然后估计查询模型P (ω|R),从而计算文档模型和查询模型之间的KL距离:翻译模型的基本思想是:把查询语句Q=q1q2…......
2023-06-28
2.1 检索语言
语言是一种人们用以交流沟通的重要工具,用于人与人之间的通信活动(communication)。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrieval language)。
信息检索语言是根据信息检索的需要而创制的人工语言,专门用于各种手工的和计算机的信息检索系统,表达文献主题概念和检索课题概念。信息检索语言实质上是表达一系列概括信息内容及其相互关系的概念标识系统。它可以是从自然语言中精选出来并加以规范化的一套词汇,也可以是代表某种分类体系的一套分类号码,还可以是某一方面特征的一套代码,能够用以对信息内容和信息需求进行主题标引、逻辑分类或特征描述。
信息检索语言作为信息检索系统的一个要素,在其中起着语言保证作用。基本功能包括:①对信息的内容及某些外部特征加以标引;②对内容相同及相关的信息加以集中或揭示其相关性;③对大量信息加以系统化或组织化;④便于将标引用语和检索用语进行相符性比较。
信息检索语言由词汇和语法组成。词汇是指登录在分类表、主题词表、代码表中的全部标识,一个标识(分类号、主题词、代码)就是它的一个词语,而分类表、主题词表和代码表就是它的词典。语法是指如何创造和运用那些标识来正确表达信息内容和信息需求的,以有效地实现信息检索的一整套规则,它分为词法(主要用于分类表、主题词表和代码表的编制过程)和句法(主要用于信息标引和信息检索过程)两部分。
信息检索语言按其结构原理,可分为体系分类检索语言和主题检索语言两大类。主题检索语言又分为两类:一类是规范主题检索语言,另一类是非规范主题检索语言。可以说体系分类检索语言和规范主题检索语言都是人工检索语言,而非规范主题检索语言则是一种自然语言。它们都广泛应用在手工检索和计算机数据库检索之中。
按一定标准对检索语言整体划分后形成的不同检索语言群体。各种检索语言的基本原理是一致的,只是在表达各种概念及其相互关系所采用的方法不同,才形成了不同类型的检索语言。检索语言从不同角度划分种类很多,常用的有以下几种:
1.按表述文献特征划分
分为表述文献外表特征的检索语言和表述文献内容特征的检索语言两种。表述文献外表特征的检索语言主要包括篇名(书名)、著者、文献代码、引文等。表述文献内容特征的检索语言主要包括分类语言、标题词语言、关键词语言、叙词语言等。
2.按标识的组配方式划分
分为先组式检索语言、后组式检索语言和先组散组式检索语言。
先组式检索语言是指检索标识在编表之前表述文献主题概念的已经固定组合好的检索语言。如标题词语言、体系分类语言等。这种语言检索者比较习惯,适用于传统的检索工具。
后组式检索语言是指检索标识在编表时没有预先固定组配,而是在检索时,根据检索的实际需要,按照组配规则临时进行组配的检索语言。如叙词语言、单元词语言等。这种检索语言适用于计算机检索系统。
先组散组式检索语言是指检索标识在编表时没有预先固定组配,而是在标引时组合成固定标识串的检索语言,如《美国国立医学图书馆医学主题表》。先组散组式检索语言的性能与先组式检索语言的性能相似。
3.按构成原理划分
分为分类检索语言、主题检索语言、代码检索语言和引文检索语言。
分类检索语言是指用分类号表达各种概念,并将各种概念以学科性质为主加以划分和系统排列的检索语言。按编制方式可分为等级体系分类语言、组配分类语言和混合分类语言。
等级体系分类语言:它按学科体系的层次,从上到下,从总到分,逐次展开,各级类目预先固定组配,具有等级制结构。
组配分类语言:它用科技术语进行组配方式来描述文献内容。这些科技术语按学科性质分为若干组,即“组面”。组面内各个术语都赋有相应的号码。标引文献时,根据文献内容选择相应的组面和有关术语,把这些术语的号码组配起来,构成表达这一文献内容的分类号。
混合分类语言:它是将体系分类和组配分类相结合的一种检索语言。
在此重点介绍体系分类语言,体系分类语言也称分类法或分类表,是历史使用最长的图书加工整理方法。我国常见的体系分类语言有《中国图书馆图书分类法》(简称中图法)、《中国科学图书分类法》(简称科图法)、《中国资料分类法》(简称资料法)。
下面主要介绍《中图法》分类体系。《中图法》将人类知识分为马列主义、毛泽东思想、邓小平理论(A);哲学、宗教(B);社会科学(C~K);自然科学(N~X);综合性图书(Z)五大部类,共计22个大类:
A马克思主义、列宁主义、毛泽东思想
B哲学
C社会科学总论
E军事
F经济
H语言、文字
I文学
J艺术(www.chuimin.cn)
K历史、地理
N自然科学总论
P天文学、地球科学
Q生物科学
R医学、卫生
S农业科学
T工业技术
U交通运输
V航空、航天
X环境科学、劳动保护科学
Z综合性图书
在工业技术(T)类下又分为:
TB一般工业技术 TD矿业工程
TE石油、天然气工业 TF冶金工业
TG金属学与金属工艺 TH机械、仪表工业
TL原子能技术 TM电工技术
TN无线电电子学、电信技术 TP自动化技术、计算机技术
在T-工业技术大类下的 TP类展开的下位类如下:
T工业技术 TP393计算机网络
TP自动化技术、计算机技术 TP393.0一般性问题
TP3计算技术、计算机技术 TP393.01计算机网络理论
TP39计算机应用 TP393.02计算机网络结构与设计
从上表可以看出,分类号的变化体现了各学科体系的从属关系,分类号位数每增加一位,则分类级别便低一级。如TP393类目是计算机网络,是TP39的下位类。
主题检索语言是指采用描述文献主题的词语标识并按字顺序排检的检索语言。
代码检索语言是用来标引、检索特定专业文献的某种代码系统。如化学物质登记号、专利号等,检索系统即是用代码检索语言来标引的。
引文检索语言是基于文献之间引证关系而形成的一种检索语言。它以引文为检索标识,根据引证关系将有关文献自然的耦合在一起。检索时通过引文标识可以回溯到一系列内容相关的文献。
有关信息检索与图书馆利用的文章
鉴于语言模型在很多问题的研究中都获得了成功的应用,很多学者也提出了将改进的语言模型用于信息检索的方法。qn和文档D,那么,文档模型的任务就是先建立文档的语言模型MD,然后根据概率P对文档进行排序。查询模型的基本思想是:假定查询Q=q1q2…那么,该模型的任务就是先估计文档模型P,然后估计查询模型P (ω|R),从而计算文档模型和查询模型之间的KL距离:翻译模型的基本思想是:把查询语句Q=q1q2…......
2023-06-28
Internet为我们获取信息提供了前所未有的方便,它彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的信息,而且信息的形式多样,图文并茂,有声有景。Internet的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索扩展到一个更广阔的领域。......
2023-11-01
目前,标准文献的分类体系影响力较大、应用范围较广的有:中国标准文献分类法、国际标准分类法、国际十进制分类法等。自1995年底开始,我国发布的国家标准也改用进行分类。表5.2主要国家的标准代号......
2023-08-01
完成检索后,通过查看检索结果数量的多少或相关程度的高低,可以评价检索策略的好坏。通常情况下,需要多次修改检索策略,直到检索结果令人满意为止。因此要正确分析误检、漏检原因,及时调整策略。⑧浏览部分中间检索结果,从检出的记录中选取新的检索词对中间结果进行限制。......
2023-08-01
2.3检索方法针对某检索目的、为实现该检索计划或方案所采取的具体操作方法称之为检索方法。利用该检索方法检索文献系统性较强,查全率高,但费时费力。该方法优点是省时省力,但漏检率较高。因此该法是一种付出少、检索效率和检索效果都较好的方法。2.追溯法即利用已知文献的引用文献或参考文献为线索,由近及远,进行逐一追踪的查找方法,又称“追踪法”。3.循环法即将追溯法与工具法结合起来检索文献信息的方法。......
2023-12-03
据统计,各种各样的Internet网络信息检索工具已有数千个,我们可以按照这些工具的检索机制、检索内容范围、包含检索工具的数量、检索资源类型,将它们划分为以下各类检索工具。根据检索工具的数据检索机制,我们可将检索工具分为检索型、目录型和混合型检索工具。通常意义上的检索工具通过自身的采集标引机制、数据组织机制和数据检索机制提供检索服务,我们可以将它们称为“独立搜索引擎”。元搜索引擎就是在这种情况下应运而生的。......
2023-07-02
1.3.3文献的类型文献大体可分为自然科学文献和社会科学文献。根据文献的构成要素,文献可按载体形式、出版形式和加工层次分为不同的类型。1.图书在科技人员阅读的文献中,图书占14%~19%,以科技图书为主,可分为阅读型和工具型两种。科技人员对其需要量占其全部文献量的10%~20%。该类文献有助于了解国家的政策与演变。狭义专利文献仅指专利说明书,专利检索的主要对象是专利说明书。......
2023-12-03
深入浅出地讲解清楚集合中用到的equals方法和hashCode方法,让程序员在使用到集合的类时得心应手。在所有构造方法以及add、equals和hashCode方法的基础上,Set接口还加入了其他规定,这些规定超出了从Collection接口所继承的内容。......
2024-03-27
相关推荐