首页 理论教育基于学术单元的知识组织新框架:多维度标签构建研究

基于学术单元的知识组织新框架:多维度标签构建研究

【摘要】:标签与受控词表的整合问题,是目前国外研究的一个热点。[8]在中国,《汉语主题词表》是信息检索的基础性词表,但随着标签的兴起,汉语主题词表中规范的主题词不再被用户直接使用,图书情报界对标签与叙词表关系的研究正在逐渐展开。该研究强调了标签与汉语主题词表结合的必要性,并提出了一个比喻,将标签比喻成绿叶,而主题词表是一棵有枝干的大树。[12]标签后控词表的建设,与叙词表的建设在理论和方法上有很多不同之处。

标签与受控词表的整合问题,是目前国外研究的一个热点。Lim Pens等人认为,克服标签缺陷的最佳方法就是建立一个利用系统与用户相互作用来增强标签语义的动态模型。这个模型通过自动处理语义关系,协助用户进行标签分类。Eric Tsul等人则提出了一种概念关系的抽取和推理方法,来为标签建立等级分类。Passant和Laublet则提出一种通过抽取标签语境的语义关系,来建立本体框架MOAT(meaning of a tag),以增强分众分类系统的语义。此外,Ching‐Chieh Kiu等人提出了一种基于分众分类和传统分类法的混合的等级结构模型。尽管上述学者采用的方法不同,但其目的都是挖掘分众分类标签可能存在的语义层次关系,建立一种基于标签的等级结构,从而协助用户标签的分类管理和知识检索。[8]

在中国,《汉语主题词表》是信息检索的基础性词表,但随着标签的兴起,汉语主题词表中规范的主题词不再被用户直接使用,图书情报界对标签与叙词表关系的研究正在逐渐展开。

有研究者在收集美味网(Delicious)中文标签数据后,将其与汉语主题词表进行了词汇重叠率的研究。[9]该研究者对网络中大约100万个标签进行归类,在去掉频次3以下的标签后,得到1227个标签,并将其与《汉语主题词表》中22565个社科主题词进行了比较,发现有312个标签与《汉语主题词表》中的主题词完全匹配,占标签总数的25.4%;有共计491个,占比40.02%的标签与主题词表库中的至少一个主题词相关联,也就是说,有将近60%的标签不与任何主题词匹配。该研究强调了标签与汉语主题词表结合的必要性,并提出了一个比喻,将标签比喻成绿叶,而主题词表是一棵有枝干的大树。《汉语主题词表》具有严密的体系,用于知识组织,可形成一个完整的体系,但其中的主题词由于更新缓慢,跟不上时代,使得主题词表像一棵缺乏绿叶的大树,而标签以其丰富的词汇,紧跟时代,却由于自由度很高而难以形成体系,恰似零散的绿叶。将标签与汉语主题词表结合,可以取长补短,更利于知识的组织。

在网络环境下,《汉语主题词表》的编制,也可以用新型的方式来完成。主题词的选取,以前都是通过专家定制,但随着网络数据库的出现使我们可以得到大量关键词的信息,在此基础上构建主题词表也是一个较好的选项。我们可以通过日志获取用户使用检索词汇的种类和频次,这些语料为叙词表编制过程中基于概念覆盖、基于词频统计、基于用户使用的关键词来选取规范的概念术语提供了可能。有学者统计了万方数据和重庆维普1989至2008年收录的所有期刊论文的关键词,经过去重以后,获得了约611万个关键词,这些词具备所处期刊、文章、中图分类号等多种语料信息。可见,仅针对关键词一项,语料资源就可以进行大量的统计工作,为概念术语的选取提供数据支持和科学依据。[10]

随着网络标签的兴起,标签成为与关键词相似的自由词,以标签为基础编制词表也是一个研究的方向。本书所提出的多维度标签中的标签,是经过维度后控的,与普通自由标签相比,具有明确的范畴领域,以此构建的词表,将会比根据关键词和普通标签构建的词表更具有质量保证。比如对象标签,都是研究对象的集合,在与本体维度中学科分类的组合后,可以构建各个学科的知识地图和词表,还可以作为构建领域本体的基础。这些都是多维度标签在积累相当数据后的可进行的操作。因此,以多维度标签为数据源的后续数据分析研究具有很大的发展前景。

标签是一种自然语言,自然语言的检索也是一个热门的研究领域。一般认为叙词检索的优点是查准率和查全率较高,使用叙词表的数据库的检索效率要大大优于不使用叙词表的数据库。但专业化程度较高和使用的不便性也是其较为突出的缺点。一般认为自然语言检索的优点是用户可用任意词进行检索,不需要专业背景就可以进行操作,并且能够找到部分所需文献。但其缺点也是明显的,即文献的查准率较低,并不是用户所需的结果会大量出现,增加了筛选的时间,查全率也较低,即没有同义词等关联,相关的所需结果不会出现。

以使用主题词表的中国生物医学文献数据库(CBM)和使用关键词的CNKI数据库进行比较可以了解到这两种检索方式的差异。CBM使用美国国立医学图书馆的《医学主题词表》(MeSH表)以及中国中医研究院图书情报研究所的《中医药学主题词表》进行主题词标引,将所有同义词、近义词进行规范处理。其主题词规范程度较高,同时支持以与副主题词组配的方式进行查询。其检索结果在查全率和查准率两个方面都优于不用主题词的CNKI数据库[11]

但是叙词表的编制需要大量的人力,且其更新往往落后于知识领域的发展,所以自然语言检索仍有它的优势。一个折中的方法就是自然语言的后控制。对自然语言进行后控制,成为自然语言检索包括标签检索的一个重要方法。早在20世纪80年代,张琪玉就对后控制词表进行了较具体详细的论述。后控制词表的性质类似于入口词表,是一种转换工具、扩检工具,也是一种罗列自然语言检索标识供选择的工具。后控制词表的控制词并非直接用于标引,而是用于对作为文献检索标识的自然语言词进行控制,协助其建立等同、等级、相关关系。实际上,后控制词表对自然语言的控制原理十分简单。用户输入某一概念的任意同义词作为检索词,经过后控制词表找出其标识词,然后再通过对所有同义词的匹配查找,检出符合条件的记录。另外,后控制词表的建立,将使自由标引显得更加现实可行,使自由标引所建数据库更具实用价值。由上可知,后控制词表对于自然语言检索而言,是提高其查全率和查准率的高效控制工具,也是实现自由标引的基础建设。[12]

标签后控词表的建设,与叙词表的建设在理论和方法上有很多不同之处。比如,叙词的是通过对知识的理解形成的,而标签则是通过众多的标签实践、对频次等的统计得出的。又如词之间的相关度,叙词表是由专家确定的,而标签是基于用户对对象标签后产生的标签之间的关联度,用一定的算法进行计算后获得的。所以叙词表的建构大多数是由专家定制完成,而后投入使用,而标签词表是通过先使用、然后统计其规律、并加以计算来完成建构。这两种词表的建构是互为逆向的。