在大数据时代,个性化推荐、检索和推送是高校图书馆的三种重要的个性化服务方式,它们之间有联系,也有区别。大数据环境下高校数字图书馆的高级检索应用也需要个性化,进一步提高检索结果的精准性和检索结果排序的合理性。推送系统能充分体现高校数字图书馆以用户为中心的管理理念,促进师生更积极地借阅图书,激发创新热情。......
2023-07-24
1.大数据挖掘算法在个性化推荐中的应用
在高校图书馆个性化服务系统设计中,推荐算法是核心模块,其性能将直接影响服务效率和质量。目前,主流的推荐算法包括基于关联规则的推荐算法、基于内容的推荐算法、协同过滤推荐算法以及混合推荐算法。在大数据环境下,亟须结合大数据挖掘算法,包括关联分析、聚类、分类、回归等来提升推荐算法的精准性和新颖性等性能,以提高用户满意度。
(1)基于关联规则的推荐算法。关联规则是数据挖掘领域中的重要算法,经典的关联规则算法广泛应用于零售领域的购物篮分析。在高校图书馆个性化服务中,关联规则可以用来发现用户使用文献之间的关系,发现同时被频繁使用的文献,从而帮助系统在用户浏览、下载、借阅时向其推荐相关文献。基于关联规则的推荐算法首先根据所有用户的文献使用数据产生关联规则,再结合当前用户的浏览、查阅行为做出推荐。大数据环境下,需要开发新的面向大数据分析的关联规则挖掘算法,以适应海量数据的快速运算和分析。
(2)基于内容的推荐算法。以文献推荐为例来说明,基于内容的推荐算法根据文献之间的相似性来进行推荐,先用数据挖掘技术分析用户已经评分的文献内容,建立用户档案模型(反映用户对文献的偏好),然后从诸多文献中选择与用户档案相似的文献,最后从中根据评分筛选出部分文献推荐给用户。
(3)协同过滤推荐算法。协同过滤推荐是目前最为成功的推荐技术,主要分为三类,包括基于用户、基于物品和基于模型的协同过滤。
①基于用户的协同过滤推荐。我们仍然以高校图书馆文献个性化服务为例,基于用户的协同过滤推荐算法首先根据用户对文献的评价日志进行用户之间的相似度计算,根据相似度得分的高低从用户集中选择同目标用户最相似的若干个邻居用户,然后基于这些邻居用户的兴趣喜好来为目标用户进行推荐。采用聚类挖掘可以提升推荐结果的新颖性。聚类是指将由单个对象构成的集合分成由相似对象组成的多个类(子集合,也称为簇)的过程。[15]根据聚类算法所生成的簇是一组数据对象的集合,同一个簇中的对象具有明显的相似特征并且与其他簇中的对象显著不同。聚类算法众多,包括划分聚类、密度聚类、层次聚类、网格聚类等。图5.1是基于用户大数据聚类的图书协同推荐示意图,首先通过聚类合并用户节点,然后计算不同用户类别之间的相似度,发现A类用户与C类用户相似,便为A类用户推荐C类用户喜欢的图书。聚类挖掘有助于提升推荐的新颖度,从而给用户带来惊喜。
②基于物品的协同过滤推荐。通过不同物品之间的相似度来进行物品的推荐预测。在高校图书馆文献个性化服务中,计算目标用户的已评价文献和待评价文献之间的相似度,给出待评文献的评价预测。类似于基于用户的协同过滤推荐,可以对文献进行聚类,提高推荐结果的新颖度。
图5.1 基于用户大数据聚类的图书协同过滤推荐
③基于模型的协同过滤推荐。通过对用户的历史图书文献评价信息进行学习以构建用户模型,以用户模型为基础进行图书的评价预测。在大数据环境下,可以使用概率模型、贝叶斯网络、人工神经网络等数据挖掘技术来实现基于模型的协同过滤。通过大数据挖掘算法训练历史数据得到模型,然后根据模型向图书馆用户推荐图书文献。
④混合推荐算法。综合多种推荐技术产生的多种推荐结果,为用户生成最后的推荐列表。混合推荐能够避免单一推荐技术的弱点,使各种推荐技术互补长短。模型级联融合和模型加权融合是推荐模型融合的两种方式。模型加权融合问题是一个典型的回归问题,除了线性融合,所有的回归算法都可以用于模型融合,如人工神经网络。采用大数据回归算法,可以提高推荐结果的精准性。
2.大数据挖掘技术在个性化检索和推送中的应用
在大数据环境下的高校图书馆个性化服务中,除了个性化推荐,大数据挖掘也可以提高个性化检索和推送的质量。在个性化推送中,可以用聚类来进行用户分组,进而分析各组特征,为不同组的用户推荐不同的文献。检索引擎中的各种链接分析、排序算法、相关性模型也都可以利用大数据挖掘技术来提升精准性,例如用户查询的分类就是常见的应用。
有关高校图书馆大数据应用模式与实证研究的文章
在大数据时代,个性化推荐、检索和推送是高校图书馆的三种重要的个性化服务方式,它们之间有联系,也有区别。大数据环境下高校数字图书馆的高级检索应用也需要个性化,进一步提高检索结果的精准性和检索结果排序的合理性。推送系统能充分体现高校数字图书馆以用户为中心的管理理念,促进师生更积极地借阅图书,激发创新热情。......
2023-07-24
利用大数据挖掘技术来优化算法,可进一步提高各种个性化服务质量,提升高校师生及相关工作人员的满意度。一方面,可以利用Mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用Mahout中已实现的相关算法来实现个性化服务。......
2023-07-24
应用数据挖掘技术有助于解决高校图书馆大数据应用中的知识迷航和信息过载问题。李艳等[13]从宏观上研究了高校图书馆大数据挖掘与决策分析体系,设计了基于高校图书馆特点的体系架构模型与业务分析流程,并探讨该体系架构在个性化服务中的应用。Yi C等[14]提出将数据挖掘算法应用到高校图书馆大数据个性化推送服务,着重讨论了关联规则算法和聚类算法的应用。......
2023-07-24
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2023-07-24
考虑到用户日志数据库体量庞大,且增长迅速,在应用上需要采用大数据分析框架。其中以“图书情报”作为本体术语的查询结果直接来自于用户问题,是正常检索,而以“知识管理”作为本体术语的查询来自于数据挖掘的结果,是隐性需求的个性化推荐。......
2023-07-24
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2023-07-24
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2023-07-24
相关推荐