首页 理论教育信息检索语言:分类、主题、代码和引文检索

信息检索语言:分类、主题、代码和引文检索

【摘要】:2.1检索语言语言是一种人们用以交流沟通的重要工具,用于人与人之间的通信活动。信息检索语言实质上是表达一系列概括信息内容及其相互关系的概念标识系统。信息检索语言由词汇和语法组成。按一定标准对检索语言整体划分后形成的不同检索语言群体。2.按标识的组配方式划分分为先组式检索语言、后组式检索语言和先组散组式检索语言。3.按构成原理划分分为分类检索语言、主题检索语言、代码检索语言和引文检索语言。

2.1 检索语言

语言是一种人们用以交流沟通的重要工具,用于人与人之间的通信活动(communication)。人与计算机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(retrieval language)。

信息检索语言是根据信息检索的需要而创制的人工语言,专门用于各种手工的和计算机的信息检索系统,表达文献主题概念和检索课题概念。信息检索语言实质上是表达一系列概括信息内容及其相互关系的概念标识系统。它可以是从自然语言中精选出来并加以规范化的一套词汇,也可以是代表某种分类体系的一套分类号码,还可以是某一方面特征的一套代码,能够用以对信息内容和信息需求进行主题标引、逻辑分类或特征描述。

信息检索语言作为信息检索系统的一个要素,在其中起着语言保证作用。基本功能包括:①对信息的内容及某些外部特征加以标引;②对内容相同及相关的信息加以集中或揭示其相关性;③对大量信息加以系统化或组织化;④便于将标引用语和检索用语进行相符性比较。

信息检索语言由词汇和语法组成。词汇是指登录在分类表、主题词表、代码表中的全部标识,一个标识(分类号、主题词、代码)就是它的一个词语,而分类表、主题词表和代码表就是它的词典。语法是指如何创造和运用那些标识来正确表达信息内容和信息需求的,以有效地实现信息检索的一整套规则,它分为词法(主要用于分类表、主题词表和代码表的编制过程)和句法(主要用于信息标引和信息检索过程)两部分。

信息检索语言按其结构原理,可分为体系分类检索语言和主题检索语言两大类。主题检索语言又分为两类:一类是规范主题检索语言,另一类是非规范主题检索语言。可以说体系分类检索语言和规范主题检索语言都是人工检索语言,而非规范主题检索语言则是一种自然语言。它们都广泛应用在手工检索和计算机数据库检索之中。

按一定标准对检索语言整体划分后形成的不同检索语言群体。各种检索语言的基本原理是一致的,只是在表达各种概念及其相互关系所采用的方法不同,才形成了不同类型的检索语言。检索语言从不同角度划分种类很多,常用的有以下几种:

1.按表述文献特征划分

分为表述文献外表特征的检索语言和表述文献内容特征的检索语言两种。表述文献外表特征的检索语言主要包括篇名(书名)、著者、文献代码、引文等。表述文献内容特征的检索语言主要包括分类语言、标题词语言、关键词语言、叙词语言等。

2.按标识的组配方式划分

分为先组式检索语言、后组式检索语言和先组散组式检索语言。

先组式检索语言是指检索标识在编表之前表述文献主题概念的已经固定组合好的检索语言。如标题词语言、体系分类语言等。这种语言检索者比较习惯,适用于传统的检索工具。

后组式检索语言是指检索标识在编表时没有预先固定组配,而是在检索时,根据检索的实际需要,按照组配规则临时进行组配的检索语言。如叙词语言、单元词语言等。这种检索语言适用于计算机检索系统。

先组散组式检索语言是指检索标识在编表时没有预先固定组配,而是在标引时组合成固定标识串的检索语言,如《美国国立医学图书馆医学主题表》。先组散组式检索语言的性能与先组式检索语言的性能相似。

3.按构成原理划分

分为分类检索语言、主题检索语言、代码检索语言和引文检索语言。

分类检索语言是指用分类号表达各种概念,并将各种概念以学科性质为主加以划分和系统排列的检索语言。按编制方式可分为等级体系分类语言、组配分类语言和混合分类语言。

等级体系分类语言:它按学科体系的层次,从上到下,从总到分,逐次展开,各级类目预先固定组配,具有等级制结构。

组配分类语言:它用科技术语进行组配方式来描述文献内容。这些科技术语按学科性质分为若干组,即“组面”。组面内各个术语都赋有相应的号码。标引文献时,根据文献内容选择相应的组面和有关术语,把这些术语的号码组配起来,构成表达这一文献内容的分类号。

混合分类语言:它是将体系分类和组配分类相结合的一种检索语言。

在此重点介绍体系分类语言,体系分类语言也称分类法或分类表,是历史使用最长的图书加工整理方法。我国常见的体系分类语言有《中国图书馆图书分类法》(简称中图法)、《中国科学图书分类法》(简称科图法)、《中国资料分类法》(简称资料法)。

下面主要介绍《中图法》分类体系。《中图法》将人类知识分为马列主义、毛泽东思想、邓小平理论(A);哲学宗教(B);社会科学(C~K);自然科学(N~X);综合性图书(Z)五大部类,共计22个大类:

A马克思主义、列宁主义、毛泽东思想

B哲学

C社会科学总论

D政治法律

E军事

F经济

G文化、科学、教育体育

H语言、文字

I文学

J艺术(www.chuimin.cn)

K历史、地理

N自然科学总论

O数学科学和化学

P天文学、地球科学

Q生物科学

R医学、卫生

S农业科学

T工业技术

U交通运输

V航空、航天

X环境科学、劳动保护科学

Z综合性图书

在工业技术(T)类下又分为:

TB一般工业技术          TD矿业工程

TE石油、天然气工业        TF冶金工业

TG金属学与金属工艺        TH机械、仪表工业

TJ武器工业            TK能源与动力工程

TL原子能技术           TM电工技术

TN无线电电子学、电信技术     TP自动化技术、计算机技术

TQ化学工业            TS轻工业手工业

TU建筑科学            TV水利工程

在T-工业技术大类下的       TP类展开的下位类如下:

T工业技术             TP393计算机网络

TP自动化技术、计算机技术     TP393.0一般性问题

TP3计算技术、计算机技术      TP393.01计算机网络理论

TP39计算机应用          TP393.02计算机网络结构与设计

从上表可以看出,分类号的变化体现了各学科体系的从属关系,分类号位数每增加一位,则分类级别便低一级。如TP393类目是计算机网络,是TP39的下位类。

主题检索语言是指采用描述文献主题的词语标识并按字顺序排检的检索语言。

代码检索语言是用来标引、检索特定专业文献的某种代码系统。如化学物质登记号、专利号等,检索系统即是用代码检索语言来标引的。

引文检索语言是基于文献之间引证关系而形成的一种检索语言。它以引文为检索标识,根据引证关系将有关文献自然的耦合在一起。检索时通过引文标识可以回溯到一系列内容相关的文献。