如图61所示的“标签云”是目前在社会化标引系统中普遍使用的一种标签可视化展示方式。每个标签以一个文字块的形式显示,被称为一片“标签云”,所有标签云构成一幅标签总图。[23]图61标签云TagCrowd是一款在线的标签云生成工具,它能将一段文字或者某一网页的关键字密度以可视化、直观、漂亮的标签云的形式显示出来。......
2023-07-31
自动标引技术最早是由美国的卢恩于1958年首先提出的,当时主要是基于词频统计法的自动抽词标引。后来,各国都开展了自动标引方面的研究,提出了多种方法,如统计法、语言法、概率法、书目引文法和人工智能法等。
自动标引主要有两种类型:赋词标引和抽词标引。赋词标引是指计算机在自动标引的过程中,采用选自预先编制词表的标引词,采用主题词或叙词来代替作者用词以表达文献的主题概念。抽词标引是指从文献中自动抽出能表达文献主题的词作为标引词,以构成文献的标引,即以作者使用的关键词直接作为标引词。抽词标引和赋词标引各有优点,抽词标引比较灵活,但不可避免地加重了检索人员的检索智力负担;而赋词标引虽然依靠计算机的识别能力,但便于扩检与缩检,查全率与查准率相对较高。20世纪80年代以来,我国的科研人员从中国技术条件出发,根据汉语词汇特点进行了细致的分析与研究,提出了各种各样的自动标引方案。[13]
汉语分词技术是自动标引的基础,现阶段汉语分词技术虽然取得了很大进展,但是由于在分词规范、分词算法、歧义控制等方面还存在着一些难以解决的问题,所以至今还没有实用化,这在一定程度上影响了自动标引的研究进展。自动标引系统所涉及的“分词”实际上是抽取代表主题概念的关键词。因为自动标引所需的关键词主要为文献的题名、文摘或少量正文中的名词和名词词组,无须对文献中的所有词和词类进行“切分”和处理,所以当前的自动标引系统研制能够回避汉语分词的一些技术难点,转向抽词技术研究,即充分利用各种词表来解决自动标引系统中的技术难题。[14]张琪玉认为:“近20年来,我国学者对汉语自动分词技术提出了不少解决方案,有些还通过了鉴定,但见于实际应用的并不多。这并不是说这些方法经不起实践考验,而主要是因为系统半途而废。如果只有软件而不编制抽词词表,那么事情只完成了很少的一部分,因为编制抽词词表要比编制抽词软件需要许多倍的工作量。当前迫切需要大量编制各种汉语自动抽词词表。”[15]
对于CADAL中实践的多维度标签,我们曾经进行了自动标签和自动维度分类实践。自动标签基本依靠自动抽词,而自动分类包括两方面的内容:一是通过对题名等元数据、目录等内容进行自动标签,并通过标签与《中图法》与学科对照表中的类目词汇进行对比,进行学科分类,前述章节中有实践案例,其准确率约为50%;二是对所有标签进行维度划分,这时就要用到各种预制的词表。
笔者在本书附录中构建了各种词表,用于多维度标签的自动标引。这些词表的构建是初步的,随着实践的进行,笔者还将通过对标签的统计分析,将词表不断完善。
有关基于“学术单元”的知识组织新框架:“多维度标签”构建研究的文章
如图61所示的“标签云”是目前在社会化标引系统中普遍使用的一种标签可视化展示方式。每个标签以一个文字块的形式显示,被称为一片“标签云”,所有标签云构成一幅标签总图。[23]图61标签云TagCrowd是一款在线的标签云生成工具,它能将一段文字或者某一网页的关键字密度以可视化、直观、漂亮的标签云的形式显示出来。......
2023-07-31
标签与受控词表的整合问题,是目前国外研究的一个热点。[8]在中国,《汉语主题词表》是信息检索的基础性词表,但随着标签的兴起,汉语主题词表中规范的主题词不再被用户直接使用,图书情报界对标签与叙词表关系的研究正在逐渐展开。该研究强调了标签与汉语主题词表结合的必要性,并提出了一个比喻,将标签比喻成绿叶,而主题词表是一棵有枝干的大树。[12]标签后控词表的建设,与叙词表的建设在理论和方法上有很多不同之处。......
2023-07-31
标注对象是一篇道教的论文,该论文的基本情况如下。晚清至民国时期,福星观不但香火旺盛,且举行过多次传戒的活动,为江南道教著名宫观。李理山还是一名社会活动家,与政府要员及上海等地著名商家都有往来,并举行过多种形式的慈善活动,在当时具有很大的社会影响力。近年来福星观的斋醮活动与香火正在恢复,玉皇山道教正在走向复兴。关键词:道教;玉皇山;福星观;李理山;蒋永林道教学科多维度标签标注举例见表77。......
2023-07-31
本节详细介绍如何根据用户行为构建模型产出标签、权重。关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。表9-2用户标识表②什么时间。时间戳,为了标识用户行为的时间点,如,1395121950,1395121950.083612,通常采用精度到秒的时间戳即可,因为微秒的时间戳精度并不可靠。行为类型:浏览行为记为权重1;地点:品尚红酒单品页的网址子权重记为0.9。用户偏好标签是红酒,权重是0.95×0.9×1=0.855,即用户A:红酒0.855、长城0.855。......
2023-06-28
6.3.3.2本体维度、方法维度、时间维度的结合不同学科的共同性和差异性的研究是方法论的研究方向之一。6.3.3.3空间维度与对象维度的结合从所有学科的内容空间的总体分析中可以看出各个国家、地区发展对学术研究的影响。6.3.3.5所有维度的综合可视化研究如何将所有的维度在一个可视化界面中进行呈现,形成立体的学术单元空间结构,这是一个终级的研究。......
2023-07-31
ThinkPHP官方的editor标签位于tp扩展标签库中,在使用前需要在解压包中找到Examples/Tag/Lib/TagLib/TagLibTp.class.php文件,然后将其复制到ThinkPHP/Extend/Driver/TagLib目录,最后在模板中直接嵌入标签即可,如以下代码所示。图6-3 editor编辑器嵌入效果利用同样的原理,读者还可以嵌入其他好用的编辑器,本书17.4.1节就是利用自定义标签实现百度编辑器嵌入的。......
2023-11-04
7.1.1.1《正统道藏》的分类体系《正统道藏》的编纂按三洞、四辅、十二类分类。7.1.1.4朱越利的《道藏》分类法朱越利先生是著名道教研究学者,他在《道藏分类解题》中,从不同的角度编制了一个《道藏》的分类法,并在《道教学》[4]一书中再一次提到了这个分类法。......
2023-07-31
图3.5例3.2 的运行结果说明代码中两个标签分别创建了一个文本框和一个提交按钮。标签的type 属性用于设置标签创建哪种类型的表单元素,这个属性的默认值为text 即文本框。表3.1标签的type 属性除type 属性用于设置标签的类型之外,还支持其他一些属性,用于设置其名称,初始值、图像地址、选中与否的状态等。表3.2标签的属性......
2023-10-19
相关推荐