图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2023-07-24
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。
1.实证数据准备
采用4.5.2节所述的图书馆馆藏数据库(共1 227 724条)和自行从互联网获取的论文库(共473 432条)。
2.元数据选取及混合关联类型
(1)元数据选取。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。
如图10.2所示,“图书”对象的元数据有id(编号)、title(书名)、author(作者)、CLCName(中图分类法名)等,一般而言,当用户获取了某本图书的“作者”“中图法分类名”的信息,便能大致了解该图书的内容指向或范围;另外,由于图书“作者”相对固定,而“中图法分类名”是具有本体属性的领域规范,有利于实现精准推荐,本方案将其作为图书数据库中用于关联的元数据。
“论文”对象的元数据有id(编号)、title(篇名)、领域名称(field)、作者(author)和关键词(index Term)等。一般而言,当用户获取了某篇论文的“作者”“关键词”和“领域名称”的信息,便能判断该论文的内容指向或范围。同理,因为论文“作者”相对固定,论文“关键词”和“领域名称”是具有本体属性的领域规范,因此将其作为论文数据库中用于关联的元数据。
图10.2 “图书”对象和“论文”对象
需要指出的是,文献的标题如图书书名或论文篇名,也能反映文献内容指向及范围,但是由于文献标题极少重复,无法建立有效关联,因此不适用于作为关联的元数据。
本方案设计了两大类型(共8个小类)关联,如图1中“关联策略”框所示。
①同类文献关联。图书与图书关联共2种:图书与图书在“作者”上的关联、图书与图书在“中图法分类名”上的关联。论文与论文关联共3种:论文与论文在“作者”上的关联、论文与论文在“领域名称”上的关联,以及论文与论文在“关键词”上的关联。
②非同类文献关联。一般分为3种情况:图书与论文在“作者”上的关联、图书的“中图法分类名”与论文的“领域名称”的关联,以及图书的“中图法分类名”与论文“关键词”的关联。
(2)文献关联举例。为清晰说明元数据的关联过程,以论文到图书的关联为例说明,其他关联方法与此类似。如图10.3所示,假设图书数据库中有两本图书Book1和Book2,论文数据库中有某篇论文Paper1。其中图书Book1、Book2以及论文Paper1三个对象都有相同的作者“苏新宁”,因此,这3个文献可以用文献id关联,形成3对二元组,即实现了三者之间基于“作者”的关联,其中“作者”是关联媒介。由于这样关联的数据量巨大,由Hadoop环境下Spark运算完成,并存储到服务器内存或数据库中,作为推荐的备选项。
图10.3 文献关联举例
当用户在推荐系统中通过网页导航或浏览时,一旦点击了《数据仓库和数据挖掘》(id为307285)这本书的链接后,系统的推荐功能激活,通过所建立的关联(二元组)进行论文推荐:在系统弹出该书的描述性网页的同时,网页上还推荐并显示书名为《信息检索理论与技术》(id为126547)的图书以及题名为《基于模式匹配的中文通用本体概念抽取模型》(id为1000332945)的论文。值得强调的是,id为126547和1000332945的两篇文献是关联“推荐”所得,非“检索”所得。
3.评分规则制定
关联评分表见表10.1。将文献之间的“关联”数值分为1、2和3的三种评分,分值越大,强度越高,越值得推荐。由于本方案的设计理念是基于内容的推荐,一般而言,同一“作者”发表的著作或论文在内容上的相关度最高,因而认为基于“作者”的关联是强关联,而且该关联是以“字符串匹配”方式获得,预期其二元组相对数量稀少,因而实证过程中将其值设置为最高值“3”;而“关键词”或“中图法分类名”相同的文献,表示文献的内容在某一细分的领域内有一定的相关度,文献在内容上的关联没有基于“作者”的关联密切,因而将其值设置为“2”;由于学科研究领域涉及内容很广泛,“领域名称”相同的文献,仅表示文献的内容同属于某一研究领域,在内容上相关度较弱,另外,同一领域名称的文献数据较多,预期其关联二元组数目较多,因此认为基于“领域名称”的关联是弱关联,将其权重值设为最低值“1”。
表10.1 关联评分表
4.基于图计算的排名过程
(1)举例数据。为便于说明,以表10.2和10.3数据举例并分析图计算过程。
表10.2 图书数据(用于举例)
表10.3 论文数据(用于举例)
表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。
(2)构建推荐网络图。图10.4A为依据表10.4中的关联结果构建的推荐网络图的初始状态,网络由节点和连接节点的带权重的边组成,椭圆节点为图书对象,包括两项属性,即图书id和总权重值;矩形节点为论文对象,包括论文id和总权重值。其中节点权重的初始值设置为0。因表10.4关联二元组的数目为15对,推荐基础网络共有15条边。
表10.4 关联结果(用于举例)
图10.4 推荐网络图的构建(用于举例)
以图书节点id为307285为例(查询表10.2为图书:苏新宁的《数据仓库和数据挖掘》),关联到节点id为126547(苏新宁的《信息检索理论与技术》)的图书,节点id为10000408136[白云.苏新宁的《现代图书情报技术》载文及引文特征的学术影响力分析——基于CSSCI(2004—2006)年]的论文以及节点id为1000332945(苏新宁、王昊的《基于模式匹配的中文通用本体概念抽取模型》)的论文,由于关联的媒介是“作者”,其权重值设为3。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。
(3)合并源节点和目标节点相同的边。如图10.4B所示,将源节点和目标节点都相同的边的权重值相加,减少总边数以简化网络,虚线标记的边为已经被合并权重的边。
(4)计算节点总权重值。对每个节点,计算与其连接的所有边的权重之和,并赋值给对应节点,总权重用于推荐时由高到低的排名,通过Spark中的GraphX函数实现。
有关高校图书馆大数据应用模式与实证研究的文章
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2023-07-24
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2023-07-24
大数据环境下个性化服务的研究引起学界重视。大数据技术的迅速发展以及图书馆个性化服务要求的不断提高,催生了大数据环境下个性化服务的研究,尤其是在关联数据技术与个性化服务结合方面取得了积极进展。以下结合大数据环境下个性化服务特征,讨论用户行为模型的构建策略。......
2023-07-24
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2023-07-24
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
为验证本方案的可行性和推荐性能,实现推荐系统并开展实证研究。按此规则共收集到1万多组数据。针对不同的调和参数α的准确率和多样率的统计结果如图10.15所示。......
2023-07-24
图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。......
2023-07-24
在大数据时代,个性化推荐、检索和推送是高校图书馆的三种重要的个性化服务方式,它们之间有联系,也有区别。大数据环境下高校数字图书馆的高级检索应用也需要个性化,进一步提高检索结果的精准性和检索结果排序的合理性。推送系统能充分体现高校数字图书馆以用户为中心的管理理念,促进师生更积极地借阅图书,激发创新热情。......
2023-07-24
相关推荐