首页 理论教育多维度标签构建:标签词表与自动标引实现

多维度标签构建:标签词表与自动标引实现

【摘要】:自动标引技术最早是由美国的卢恩于1958年首先提出的,当时主要是基于词频统计法的自动抽词标引。20世纪80年代以来,我国的科研人员从中国技术条件出发,根据汉语词汇特点进行了细致的分析与研究,提出了各种各样的自动标引方案。自动标引系统所涉及的“分词”实际上是抽取代表主题概念的关键词。笔者在本书附录中构建了各种词表,用于多维度标签的自动标引。

自动标引技术最早是由美国的卢恩于1958年首先提出的,当时主要是基于词频统计法的自动抽词标引。后来,各国都开展了自动标引方面的研究,提出了多种方法,如统计法、语言法、概率法、书目引文法和人工智能法等。

自动标引主要有两种类型:赋词标引和抽词标引。赋词标引是指计算机在自动标引的过程中,采用选自预先编制词表的标引词,采用主题词或叙词来代替作者用词以表达文献的主题概念。抽词标引是指从文献中自动抽出能表达文献主题的词作为标引词,以构成文献的标引,即以作者使用的关键词直接作为标引词。抽词标引和赋词标引各有优点,抽词标引比较灵活,但不可避免地加重了检索人员的检索智力负担;而赋词标引虽然依靠计算机的识别能力,但便于扩检与缩检,查全率与查准率相对较高。20世纪80年代以来,我国的科研人员从中国技术条件出发,根据汉语词汇特点进行了细致的分析与研究,提出了各种各样的自动标引方案。[13]

汉语分词技术是自动标引的基础,现阶段汉语分词技术虽然取得了很大进展,但是由于在分词规范、分词算法、歧义控制等方面还存在着一些难以解决的问题,所以至今还没有实用化,这在一定程度上影响了自动标引的研究进展。自动标引系统所涉及的“分词”实际上是抽取代表主题概念的关键词。因为自动标引所需的关键词主要为文献的题名、文摘或少量正文中的名词和名词词组,无须对文献中的所有词和词类进行“切分”和处理,所以当前的自动标引系统研制能够回避汉语分词的一些技术难点,转向抽词技术研究,即充分利用各种词表来解决自动标引系统中的技术难题。[14]张琪玉认为:“近20年来,我国学者对汉语自动分词技术提出了不少解决方案,有些还通过了鉴定,但见于实际应用的并不多。这并不是说这些方法经不起实践考验,而主要是因为系统半途而废。如果只有软件而不编制抽词词表,那么事情只完成了很少的一部分,因为编制抽词词表要比编制抽词软件需要许多倍的工作量。当前迫切需要大量编制各种汉语自动抽词词表。”[15]

对于CADAL中实践的多维度标签,我们曾经进行了自动标签和自动维度分类实践。自动标签基本依靠自动抽词,而自动分类包括两方面的内容:一是通过对题名等元数据、目录等内容进行自动标签,并通过标签与《中图法》与学科对照表中的类目词汇进行对比,进行学科分类,前述章节中有实践案例,其准确率约为50%;二是对所有标签进行维度划分,这时就要用到各种预制的词表。

笔者在本书附录中构建了各种词表,用于多维度标签的自动标引。这些词表的构建是初步的,随着实践的进行,笔者还将通过对标签的统计分析,将词表不断完善。