如图61所示的“标签云”是目前在社会化标引系统中普遍使用的一种标签可视化展示方式。每个标签以一个文字块的形式显示,被称为一片“标签云”,所有标签云构成一幅标签总图。[23]图61标签云TagCrowd是一款在线的标签云生成工具,它能将一段文字或者某一网页的关键字密度以可视化、直观、漂亮的标签云的形式显示出来。......
2023-07-31
标签与受控词表的整合问题,是目前国外研究的一个热点。Lim Pens等人认为,克服标签缺陷的最佳方法就是建立一个利用系统与用户相互作用来增强标签语义的动态模型。这个模型通过自动处理语义关系,协助用户进行标签分类。Eric Tsul等人则提出了一种概念关系的抽取和推理方法,来为标签建立等级分类。Passant和Laublet则提出一种通过抽取标签语境的语义关系,来建立本体框架MOAT(meaning of a tag),以增强分众分类系统的语义。此外,Ching‐Chieh Kiu等人提出了一种基于分众分类和传统分类法的混合的等级结构模型。尽管上述学者采用的方法不同,但其目的都是挖掘分众分类标签可能存在的语义层次关系,建立一种基于标签的等级结构,从而协助用户标签的分类管理和知识检索。[8]
在中国,《汉语主题词表》是信息检索的基础性词表,但随着标签的兴起,汉语主题词表中规范的主题词不再被用户直接使用,图书情报界对标签与叙词表关系的研究正在逐渐展开。
有研究者在收集美味网(Delicious)中文标签数据后,将其与汉语主题词表进行了词汇重叠率的研究。[9]该研究者对网络中大约100万个标签进行归类,在去掉频次3以下的标签后,得到1227个标签,并将其与《汉语主题词表》中22565个社科主题词进行了比较,发现有312个标签与《汉语主题词表》中的主题词完全匹配,占标签总数的25.4%;有共计491个,占比40.02%的标签与主题词表库中的至少一个主题词相关联,也就是说,有将近60%的标签不与任何主题词匹配。该研究强调了标签与汉语主题词表结合的必要性,并提出了一个比喻,将标签比喻成绿叶,而主题词表是一棵有枝干的大树。《汉语主题词表》具有严密的体系,用于知识组织,可形成一个完整的体系,但其中的主题词由于更新缓慢,跟不上时代,使得主题词表像一棵缺乏绿叶的大树,而标签以其丰富的词汇,紧跟时代,却由于自由度很高而难以形成体系,恰似零散的绿叶。将标签与汉语主题词表结合,可以取长补短,更利于知识的组织。
在网络环境下,《汉语主题词表》的编制,也可以用新型的方式来完成。主题词的选取,以前都是通过专家定制,但随着网络数据库的出现使我们可以得到大量关键词的信息,在此基础上构建主题词表也是一个较好的选项。我们可以通过日志获取用户使用检索词汇的种类和频次,这些语料为叙词表编制过程中基于概念覆盖、基于词频统计、基于用户使用的关键词来选取规范的概念术语提供了可能。有学者统计了万方数据和重庆维普1989至2008年收录的所有期刊论文的关键词,经过去重以后,获得了约611万个关键词,这些词具备所处期刊、文章、中图分类号等多种语料信息。可见,仅针对关键词一项,语料资源就可以进行大量的统计工作,为概念术语的选取提供数据支持和科学依据。[10]
随着网络标签的兴起,标签成为与关键词相似的自由词,以标签为基础编制词表也是一个研究的方向。本书所提出的多维度标签中的标签,是经过维度后控的,与普通自由标签相比,具有明确的范畴领域,以此构建的词表,将会比根据关键词和普通标签构建的词表更具有质量保证。比如对象标签,都是研究对象的集合,在与本体维度中学科分类的组合后,可以构建各个学科的知识地图和词表,还可以作为构建领域本体的基础。这些都是多维度标签在积累相当数据后的可进行的操作。因此,以多维度标签为数据源的后续数据分析研究具有很大的发展前景。
标签是一种自然语言,自然语言的检索也是一个热门的研究领域。一般认为叙词检索的优点是查准率和查全率较高,使用叙词表的数据库的检索效率要大大优于不使用叙词表的数据库。但专业化程度较高和使用的不便性也是其较为突出的缺点。一般认为自然语言检索的优点是用户可用任意词进行检索,不需要专业背景就可以进行操作,并且能够找到部分所需文献。但其缺点也是明显的,即文献的查准率较低,并不是用户所需的结果会大量出现,增加了筛选的时间,查全率也较低,即没有同义词等关联,相关的所需结果不会出现。
以使用主题词表的中国生物医学文献数据库(CBM)和使用关键词的CNKI数据库进行比较可以了解到这两种检索方式的差异。CBM使用美国国立医学图书馆的《医学主题词表》(MeSH表)以及中国中医研究院图书情报研究所的《中医药学主题词表》进行主题词标引,将所有同义词、近义词进行规范处理。其主题词规范程度较高,同时支持以与副主题词组配的方式进行查询。其检索结果在查全率和查准率两个方面都优于不用主题词的CNKI数据库[11]。
但是叙词表的编制需要大量的人力,且其更新往往落后于知识领域的发展,所以自然语言检索仍有它的优势。一个折中的方法就是自然语言的后控制。对自然语言进行后控制,成为自然语言检索包括标签检索的一个重要方法。早在20世纪80年代,张琪玉就对后控制词表进行了较具体详细的论述。后控制词表的性质类似于入口词表,是一种转换工具、扩检工具,也是一种罗列自然语言检索标识供选择的工具。后控制词表的控制词并非直接用于标引,而是用于对作为文献检索标识的自然语言词进行控制,协助其建立等同、等级、相关关系。实际上,后控制词表对自然语言的控制原理十分简单。用户输入某一概念的任意同义词作为检索词,经过后控制词表找出其标识词,然后再通过对所有同义词的匹配查找,检出符合条件的记录。另外,后控制词表的建立,将使自由标引显得更加现实可行,使自由标引所建数据库更具实用价值。由上可知,后控制词表对于自然语言检索而言,是提高其查全率和查准率的高效控制工具,也是实现自由标引的基础建设。[12]
标签后控词表的建设,与叙词表的建设在理论和方法上有很多不同之处。比如,叙词的是通过对知识的理解形成的,而标签则是通过众多的标签实践、对频次等的统计得出的。又如词之间的相关度,叙词表是由专家确定的,而标签是基于用户对对象标签后产生的标签之间的关联度,用一定的算法进行计算后获得的。所以叙词表的建构大多数是由专家定制完成,而后投入使用,而标签词表是通过先使用、然后统计其规律、并加以计算来完成建构。这两种词表的建构是互为逆向的。
有关基于“学术单元”的知识组织新框架:“多维度标签”构建研究的文章
如图61所示的“标签云”是目前在社会化标引系统中普遍使用的一种标签可视化展示方式。每个标签以一个文字块的形式显示,被称为一片“标签云”,所有标签云构成一幅标签总图。[23]图61标签云TagCrowd是一款在线的标签云生成工具,它能将一段文字或者某一网页的关键字密度以可视化、直观、漂亮的标签云的形式显示出来。......
2023-07-31
6.3.3.2本体维度、方法维度、时间维度的结合不同学科的共同性和差异性的研究是方法论的研究方向之一。6.3.3.3空间维度与对象维度的结合从所有学科的内容空间的总体分析中可以看出各个国家、地区发展对学术研究的影响。6.3.3.5所有维度的综合可视化研究如何将所有的维度在一个可视化界面中进行呈现,形成立体的学术单元空间结构,这是一个终级的研究。......
2023-07-31
标注对象是一篇道教的论文,该论文的基本情况如下。晚清至民国时期,福星观不但香火旺盛,且举行过多次传戒的活动,为江南道教著名宫观。李理山还是一名社会活动家,与政府要员及上海等地著名商家都有往来,并举行过多种形式的慈善活动,在当时具有很大的社会影响力。近年来福星观的斋醮活动与香火正在恢复,玉皇山道教正在走向复兴。关键词:道教;玉皇山;福星观;李理山;蒋永林道教学科多维度标签标注举例见表77。......
2023-07-31
7.1.1.1《正统道藏》的分类体系《正统道藏》的编纂按三洞、四辅、十二类分类。7.1.1.4朱越利的《道藏》分类法朱越利先生是著名道教研究学者,他在《道藏分类解题》中,从不同的角度编制了一个《道藏》的分类法,并在《道教学》[4]一书中再一次提到了这个分类法。......
2023-07-31
自动标引技术最早是由美国的卢恩于1958年首先提出的,当时主要是基于词频统计法的自动抽词标引。20世纪80年代以来,我国的科研人员从中国技术条件出发,根据汉语词汇特点进行了细致的分析与研究,提出了各种各样的自动标引方案。自动标引系统所涉及的“分词”实际上是抽取代表主题概念的关键词。笔者在本书附录中构建了各种词表,用于多维度标签的自动标引。......
2023-07-31
知识单元是指相对独立存在的并可重用的教学内容组块。知识单元的组织结构如图4.3所示。知识单元中知识分类和认知特性刻画可以参照布鲁姆教育目标分类体系,构建了学习目标二维矩阵表。评价项目知识单元中的评价项目又可分为终结性评价和过程性评价。每个知识单元包含一组评估项,检测学习者对学习内容的掌握情况。......
2023-11-07
为了比较具有不同学术研究经验的用户对社会化媒体学术信息搜寻行为及其影响变量的感知差异,采用单因素方差分析方法对其进行比较分析。从服务质量的感知来看,学术研究经验小于1年的用户的样本均值为4.658,小于其他分组用户的样本均值,表明该组用户更有可能认为社会化媒体提供的服务水平不高,而学术研究经验为5~10年的用户的样本均值为5.731,大于其他分组用户的样本均值,表明该组用户更可能认为社会化媒体提供的服务水平较高。......
2023-08-03
易卜生剧作中存在“南方”与“北方”地理意象,以此形成南北方向而组接的地理空间,内容丰富且形式多样。整体来看,在易卜生的剧本中建构了以“南方”与“北方”为框架的地理空间,以高山峡湾为主体的挪威地理空间建构、以挪威为中心的世界地理空间建构、以教堂塔楼为核心的宗教地理空间建构、以凉亭楼阁为主体的家园地理空间建构,都是以南北地理空间作为基础,从而形成多重地理空间结构。......
2023-11-29
相关推荐