为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2025-09-29
1.关联结果分析
应用Spark对图书和论文数据库中的数据处理,共构成8组二元组,保存为RDD文件,见表10.9。
(1)关联媒介为“领域名称”的二元组数目最大,达到55亿多条。因为“领域名称”分类相对较少,每个“领域名称”下包括的文献非常多,这些文献都要建立关联,因而数量最多。“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。从统计学意义上看,如此巨量的关联二元组必然是排名的关键要素。另外,由于“领域名称”关联约占72%的比例,必将导致此类型关联的总评分值被拉高。为避免该类型的关联“一家独大”,影响推荐的精准性,所以在评分标准上将其权重设为最低档“1”,以平衡其巨大基数造成的影响。
表10.9 关联二元组
(2)图书与论文在“作者”上的关联数目最小。该类关联是通过“作者”对应的字符串匹配,判断是否相同而实现关联,由于“作者”的姓名千差万别,且同一“作者”既出版图书又发表论文的情形毕竟有限,所以关联数目最少在情理之中。由于此种类型数目少,为平衡起见,将其权重值设为较高值“3”。一般而言,此类关联的精准度较高,但是由于现实中作者存在“同名”现象,导致出现一定的匹配错误,从而给精准度带来负面影响,但总体说来,瑕不掩瑜。
(3)图书的“中图法分类名”与论文在“领域名称”上的关联,以及图书的“中图法分类名”与论文的“关键词”的关联占比之和为1.29%,其权重设置原理同其他类型相同,此类关联是实现图书与论文交叉推荐的基础。(https://www.chuimin.cn)
关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。
2.原型系统及推荐结果分析
如图10.12所示为推荐原型系统的显示界面,显示为图书和论文的推荐Top 10列表。其中虚线方框为方便说明所添加:标记①是用户浏览论文“孙建军:图书情报专业学位教育的整体规划与可持续发展”时,点击该论文链接,系统推荐功能激活后的推荐结果,推荐页面只显示了部分列表,其他页面隐藏在滚动条下。标记②所对应的区域是系统所推荐的图书列表,可以看出前三条推荐结果与用户原来浏览的论文非常相关,经查证为南京大学信息管理学院孙建军的著作,因为基于“作者”的论文到图书的评分较高,所以排名也较为靠前;右边为推荐结果中的论文列表,其中标记③与用户所浏览的论文内容具有高相关性,经查证也为南京大学信息管理学院孙建军的论文,因为基于“作者”的论文到论文的评分也较高,所以排名也靠前,因此可以看出,所设计的关联方案、评分规则是合理的,其排名方法是有效的。
图10.12 推荐原型系统的显示界面
值得注意的是,在图书和论文的列表中,都出现了相关不高的文献,如图书列表的其他部分,是“同名不同人”其他作者的著作。但由于基于“作者”排名的评分较高,也排在了文献列表的前列。
相关文章
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2025-09-29
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2025-09-29
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2025-09-29
特别是随着阅读终端的多样化和社交媒体的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源见表7.1。大数据挖掘作为知识发现、信息行为分析的重要研究方法,是图书馆数据展现数据智慧的关键技术之一。本节提出如图7.1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘作为沟通图书馆智慧服务需求和大数据应用的桥梁。......
2025-09-29
两类数据均截至2016年12月31日。首先是Spark关联计算,将馆藏图书数据库和论文数据库聚合,构建RDD关联三元组,然后转换为GraphX图计算,实现对关联结果排名并保存到数据库中,最后开发Web实时系统显示文献查询结果。其中,“图书与图书”通过“中图法分类名”关联的三元组数目最大,达到14亿多条。这两类关联占三元组总数的比例近95%,共同构成“字符比较”关联的主体部分。这是因为计算过程中Spark中间结果存储在内存中,提高了性能。......
2025-09-29
应用数据挖掘技术有助于解决高校图书馆大数据应用中的知识迷航和信息过载问题。李艳等[13]从宏观上研究了高校图书馆大数据挖掘与决策分析体系,设计了基于高校图书馆特点的体系架构模型与业务分析流程,并探讨该体系架构在个性化服务中的应用。Yi C等[14]提出将数据挖掘算法应用到高校图书馆大数据个性化推送服务,着重讨论了关联规则算法和聚类算法的应用。......
2025-09-29
基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研......
2025-09-29
利用大数据挖掘技术来优化算法,可进一步提高各种个性化服务质量,提升高校师生及相关工作人员的满意度。一方面,可以利用Mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用Mahout中已实现的相关算法来实现个性化服务。......
2025-09-29
相关推荐