究其原因,高校图书馆大数据应用正处于起步阶段,数据收集整合、数据分析和知识服务方法有待发展,相关技术有待突破;另外,高校图书馆数据量激增,海量存储的急切需求和计算设备性能的急待提高与资金投入受限也存在尖锐的矛盾。上述因素使得当前高校图书馆大数据应用陷入困境,阻碍了高校图书馆大数据服务的开展。大数据实时处理和高效分析是图书馆知识服务的前提,也是图书馆大数据应用落地的关键。......
2025-09-29
1.大数据挖掘算法在个性化推荐中的应用
在高校图书馆个性化服务系统设计中,推荐算法是核心模块,其性能将直接影响服务效率和质量。目前,主流的推荐算法包括基于关联规则的推荐算法、基于内容的推荐算法、协同过滤推荐算法以及混合推荐算法。在大数据环境下,亟须结合大数据挖掘算法,包括关联分析、聚类、分类、回归等来提升推荐算法的精准性和新颖性等性能,以提高用户满意度。
(1)基于关联规则的推荐算法。关联规则是数据挖掘领域中的重要算法,经典的关联规则算法广泛应用于零售领域的购物篮分析。在高校图书馆个性化服务中,关联规则可以用来发现用户使用文献之间的关系,发现同时被频繁使用的文献,从而帮助系统在用户浏览、下载、借阅时向其推荐相关文献。基于关联规则的推荐算法首先根据所有用户的文献使用数据产生关联规则,再结合当前用户的浏览、查阅行为做出推荐。大数据环境下,需要开发新的面向大数据分析的关联规则挖掘算法,以适应海量数据的快速运算和分析。
(2)基于内容的推荐算法。以文献推荐为例来说明,基于内容的推荐算法根据文献之间的相似性来进行推荐,先用数据挖掘技术分析用户已经评分的文献内容,建立用户档案模型(反映用户对文献的偏好),然后从诸多文献中选择与用户档案相似的文献,最后从中根据评分筛选出部分文献推荐给用户。
(3)协同过滤推荐算法。协同过滤推荐是目前最为成功的推荐技术,主要分为三类,包括基于用户、基于物品和基于模型的协同过滤。
①基于用户的协同过滤推荐。我们仍然以高校图书馆文献个性化服务为例,基于用户的协同过滤推荐算法首先根据用户对文献的评价日志进行用户之间的相似度计算,根据相似度得分的高低从用户集中选择同目标用户最相似的若干个邻居用户,然后基于这些邻居用户的兴趣喜好来为目标用户进行推荐。采用聚类挖掘可以提升推荐结果的新颖性。聚类是指将由单个对象构成的集合分成由相似对象组成的多个类(子集合,也称为簇)的过程。[15]根据聚类算法所生成的簇是一组数据对象的集合,同一个簇中的对象具有明显的相似特征并且与其他簇中的对象显著不同。聚类算法众多,包括划分聚类、密度聚类、层次聚类、网格聚类等。图5.1是基于用户大数据聚类的图书协同推荐示意图,首先通过聚类合并用户节点,然后计算不同用户类别之间的相似度,发现A类用户与C类用户相似,便为A类用户推荐C类用户喜欢的图书。聚类挖掘有助于提升推荐的新颖度,从而给用户带来惊喜。
②基于物品的协同过滤推荐。通过不同物品之间的相似度来进行物品的推荐预测。在高校图书馆文献个性化服务中,计算目标用户的已评价文献和待评价文献之间的相似度,给出待评文献的评价预测。类似于基于用户的协同过滤推荐,可以对文献进行聚类,提高推荐结果的新颖度。(https://www.chuimin.cn)
图5.1 基于用户大数据聚类的图书协同过滤推荐
③基于模型的协同过滤推荐。通过对用户的历史图书文献评价信息进行学习以构建用户模型,以用户模型为基础进行图书的评价预测。在大数据环境下,可以使用概率模型、贝叶斯网络、人工神经网络等数据挖掘技术来实现基于模型的协同过滤。通过大数据挖掘算法训练历史数据得到模型,然后根据模型向图书馆用户推荐图书文献。
④混合推荐算法。综合多种推荐技术产生的多种推荐结果,为用户生成最后的推荐列表。混合推荐能够避免单一推荐技术的弱点,使各种推荐技术互补长短。模型级联融合和模型加权融合是推荐模型融合的两种方式。模型加权融合问题是一个典型的回归问题,除了线性融合,所有的回归算法都可以用于模型融合,如人工神经网络。采用大数据回归算法,可以提高推荐结果的精准性。
2.大数据挖掘技术在个性化检索和推送中的应用
在大数据环境下的高校图书馆个性化服务中,除了个性化推荐,大数据挖掘也可以提高个性化检索和推送的质量。在个性化推送中,可以用聚类来进行用户分组,进而分析各组特征,为不同组的用户推荐不同的文献。检索引擎中的各种链接分析、排序算法、相关性模型也都可以利用大数据挖掘技术来提升精准性,例如用户查询的分类就是常见的应用。
相关文章
究其原因,高校图书馆大数据应用正处于起步阶段,数据收集整合、数据分析和知识服务方法有待发展,相关技术有待突破;另外,高校图书馆数据量激增,海量存储的急切需求和计算设备性能的急待提高与资金投入受限也存在尖锐的矛盾。上述因素使得当前高校图书馆大数据应用陷入困境,阻碍了高校图书馆大数据服务的开展。大数据实时处理和高效分析是图书馆知识服务的前提,也是图书馆大数据应用落地的关键。......
2025-09-29
Spark框架的软件栈如图2.1所示。Spark SQL是Spark用来操作结构化数据的程序包,支持多种数据源,主要用于查询数据。Spark Streaming的功能是对实时数据进行流式计算,如生产过程中的网页服务器日志或是网络服务中用户提交状态更新的消息队列等,Spark提供了该类操作的API接口,并与Spark Core中的RDD API接口相对应,这使得编程人员能方便操作内存、硬盘数据和实时数据流。......
2025-09-29
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2025-09-29
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2025-09-29
基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研......
2025-09-29
两类数据均截至2016年12月31日。首先是Spark关联计算,将馆藏图书数据库和论文数据库聚合,构建RDD关联三元组,然后转换为GraphX图计算,实现对关联结果排名并保存到数据库中,最后开发Web实时系统显示文献查询结果。其中,“图书与图书”通过“中图法分类名”关联的三元组数目最大,达到14亿多条。这两类关联占三元组总数的比例近95%,共同构成“字符比较”关联的主体部分。这是因为计算过程中Spark中间结果存储在内存中,提高了性能。......
2025-09-29
针对各种不同类型的图书馆数据服务,开展图书馆大数据应用模式及其实证研究具有重要意义。国内学者近年来也开始讨论高校图书馆大数据应用模式和技术问题。因此,在本研究中将大规模网络分析方法和内存计算技术作为沟通图书馆数据应用需求和大数据应用的首选方法和重要技术工具,有着内在的必然性。......
2025-09-29
基于社会网络分析的图数据挖掘在网络社区划分、社会网络特性分析以及预测未来的社交行为等方面有着极其广泛的应用。由于SNA方法在知识检索中注重导入“人”与知识的互动关系,如通过复杂社会网络的时序挖掘、中心性演化等分析技术的应用,从而助力隐性知识向显性知识转化。......
2025-09-29
相关推荐