多维度标签构建：标签词表与自动标引实现

2023-07-31 理论教育版权反馈

【摘要】：自动标引技术最早是由美国的卢恩于1958年首先提出的，当时主要是基于词频统计法的自动抽词标引。20世纪80年代以来，我国的科研人员从中国技术条件出发，根据汉语词汇特点进行了细致的分析与研究，提出了各种各样的自动标引方案。自动标引系统所涉及的“分词”实际上是抽取代表主题概念的关键词。笔者在本书附录中构建了各种词表，用于多维度标签的自动标引。

自动标引技术最早是由美国的卢恩于1958年首先提出的，当时主要是基于词频统计法的自动抽词标引。后来，各国都开展了自动标引方面的研究，提出了多种方法，如统计法、语言法、概率法、书目引文法和人工智能法等。

自动标引主要有两种类型：赋词标引和抽词标引。赋词标引是指计算机在自动标引的过程中，采用选自预先编制词表的标引词，采用主题词或叙词来代替作者用词以表达文献的主题概念。抽词标引是指从文献中自动抽出能表达文献主题的词作为标引词，以构成文献的标引，即以作者使用的关键词直接作为标引词。抽词标引和赋词标引各有优点，抽词标引比较灵活，但不可避免地加重了检索人员的检索智力负担；而赋词标引虽然依靠计算机的识别能力，但便于扩检与缩检，查全率与查准率相对较高。20世纪80年代以来，我国的科研人员从中国技术条件出发，根据汉语词汇特点进行了细致的分析与研究，提出了各种各样的自动标引方案。^[13]

汉语分词技术是自动标引的基础，现阶段汉语分词技术虽然取得了很大进展，但是由于在分词规范、分词算法、歧义控制等方面还存在着一些难以解决的问题，所以至今还没有实用化，这在一定程度上影响了自动标引的研究进展。自动标引系统所涉及的“分词”实际上是抽取代表主题概念的关键词。因为自动标引所需的关键词主要为文献的题名、文摘或少量正文中的名词和名词词组，无须对文献中的所有词和词类进行“切分”和处理，所以当前的自动标引系统研制能够回避汉语分词的一些技术难点，转向抽词技术研究，即充分利用各种词表来解决自动标引系统中的技术难题。^[14]张琪玉认为：“近20年来，我国学者对汉语自动分词技术提出了不少解决方案，有些还通过了鉴定，但见于实际应用的并不多。这并不是说这些方法经不起实践考验，而主要是因为系统半途而废。如果只有软件而不编制抽词词表，那么事情只完成了很少的一部分，因为编制抽词词表要比编制抽词软件需要许多倍的工作量。当前迫切需要大量编制各种汉语自动抽词词表。”^[15]

对于CADAL中实践的多维度标签，我们曾经进行了自动标签和自动维度分类实践。自动标签基本依靠自动抽词，而自动分类包括两方面的内容：一是通过对题名等元数据、目录等内容进行自动标签，并通过标签与《中图法》与学科对照表中的类目词汇进行对比，进行学科分类，前述章节中有实践案例，其准确率约为50%；二是对所有标签进行维度划分，这时就要用到各种预制的词表。

笔者在本书附录中构建了各种词表，用于多维度标签的自动标引。这些词表的构建是初步的，随着实践的进行，笔者还将通过对标签的统计分析，将词表不断完善。

多维度标签构建：标签词表与自动标引实现

相关推荐