图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。......
2023-07-24
1.关联结果分析
应用Spark对图书和论文数据库中的数据处理,共构成8组二元组,保存为RDD文件,见表10.9。
(1)关联媒介为“领域名称”的二元组数目最大,达到55亿多条。因为“领域名称”分类相对较少,每个“领域名称”下包括的文献非常多,这些文献都要建立关联,因而数量最多。“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。从统计学意义上看,如此巨量的关联二元组必然是排名的关键要素。另外,由于“领域名称”关联约占72%的比例,必将导致此类型关联的总评分值被拉高。为避免该类型的关联“一家独大”,影响推荐的精准性,所以在评分标准上将其权重设为最低档“1”,以平衡其巨大基数造成的影响。
表10.9 关联二元组
(2)图书与论文在“作者”上的关联数目最小。该类关联是通过“作者”对应的字符串匹配,判断是否相同而实现关联,由于“作者”的姓名千差万别,且同一“作者”既出版图书又发表论文的情形毕竟有限,所以关联数目最少在情理之中。由于此种类型数目少,为平衡起见,将其权重值设为较高值“3”。一般而言,此类关联的精准度较高,但是由于现实中作者存在“同名”现象,导致出现一定的匹配错误,从而给精准度带来负面影响,但总体说来,瑕不掩瑜。
(3)图书的“中图法分类名”与论文在“领域名称”上的关联,以及图书的“中图法分类名”与论文的“关键词”的关联占比之和为1.29%,其权重设置原理同其他类型相同,此类关联是实现图书与论文交叉推荐的基础。
关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。
2.原型系统及推荐结果分析
如图10.12所示为推荐原型系统的显示界面,显示为图书和论文的推荐Top 10列表。其中虚线方框为方便说明所添加:标记①是用户浏览论文“孙建军:图书情报专业学位教育的整体规划与可持续发展”时,点击该论文链接,系统推荐功能激活后的推荐结果,推荐页面只显示了部分列表,其他页面隐藏在滚动条下。标记②所对应的区域是系统所推荐的图书列表,可以看出前三条推荐结果与用户原来浏览的论文非常相关,经查证为南京大学信息管理学院孙建军的著作,因为基于“作者”的论文到图书的评分较高,所以排名也较为靠前;右边为推荐结果中的论文列表,其中标记③与用户所浏览的论文内容具有高相关性,经查证也为南京大学信息管理学院孙建军的论文,因为基于“作者”的论文到论文的评分也较高,所以排名也靠前,因此可以看出,所设计的关联方案、评分规则是合理的,其排名方法是有效的。
图10.12 推荐原型系统的显示界面
值得注意的是,在图书和论文的列表中,都出现了相关不高的文献,如图书列表的其他部分,是“同名不同人”其他作者的著作。但由于基于“作者”排名的评分较高,也排在了文献列表的前列。
有关高校图书馆大数据应用模式与实证研究的文章
图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。......
2023-07-24
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2023-07-24
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2023-07-24
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2023-07-24
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2023-07-24
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
特别是随着阅读终端的多样化和社交媒体的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源见表7.1。大数据挖掘作为知识发现、信息行为分析的重要研究方法,是图书馆数据展现数据智慧的关键技术之一。本节提出如图7.1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘作为沟通图书馆智慧服务需求和大数据应用的桥梁。......
2023-07-24
为验证本方案的可行性和推荐性能,实现推荐系统并开展实证研究。按此规则共收集到1万多组数据。针对不同的调和参数α的准确率和多样率的统计结果如图10.15所示。......
2023-07-24
相关推荐