首页 理论教育高校图书馆大数据挖掘算法应用,个性化服务实证研究

高校图书馆大数据挖掘算法应用,个性化服务实证研究

【摘要】:关联规则是数据挖掘领域中的重要算法,经典的关联规则算法广泛应用于零售领域的购物篮分析。在高校图书馆个性化服务中,关联规则可以用来发现用户使用文献之间的关系,发现同时被频繁使用的文献,从而帮助系统在用户浏览、下载、借阅时向其推荐相关文献。

1.大数据挖掘算法在个性化推荐中的应用

在高校图书馆个性化服务系统设计中,推荐算法是核心模块,其性能将直接影响服务效率和质量。目前,主流的推荐算法包括基于关联规则的推荐算法、基于内容的推荐算法、协同过滤推荐算法以及混合推荐算法。在大数据环境下,亟须结合大数据挖掘算法,包括关联分析、聚类、分类、回归等来提升推荐算法的精准性和新颖性等性能,以提高用户满意度。

(1)基于关联规则的推荐算法。关联规则是数据挖掘领域中的重要算法,经典的关联规则算法广泛应用于零售领域的购物篮分析。在高校图书馆个性化服务中,关联规则可以用来发现用户使用文献之间的关系,发现同时被频繁使用的文献,从而帮助系统在用户浏览、下载、借阅时向其推荐相关文献。基于关联规则的推荐算法首先根据所有用户的文献使用数据产生关联规则,再结合当前用户的浏览、查阅行为做出推荐。大数据环境下,需要开发新的面向大数据分析的关联规则挖掘算法,以适应海量数据的快速运算和分析。

(2)基于内容的推荐算法。以文献推荐为例来说明,基于内容的推荐算法根据文献之间的相似性来进行推荐,先用数据挖掘技术分析用户已经评分的文献内容,建立用户档案模型(反映用户对文献的偏好),然后从诸多文献中选择与用户档案相似的文献,最后从中根据评分筛选出部分文献推荐给用户。

(3)协同过滤推荐算法。协同过滤推荐是目前最为成功的推荐技术,主要分为三类,包括基于用户、基于物品和基于模型的协同过滤。

①基于用户的协同过滤推荐。我们仍然以高校图书馆文献个性化服务为例,基于用户的协同过滤推荐算法首先根据用户对文献的评价日志进行用户之间的相似度计算,根据相似度得分的高低从用户集中选择同目标用户最相似的若干个邻居用户,然后基于这些邻居用户的兴趣喜好来为目标用户进行推荐。采用聚类挖掘可以提升推荐结果的新颖性。聚类是指将由单个对象构成的集合分成由相似对象组成的多个类(子集合,也称为簇)的过程。[15]根据聚类算法所生成的簇是一组数据对象的集合,同一个簇中的对象具有明显的相似特征并且与其他簇中的对象显著不同。聚类算法众多,包括划分聚类、密度聚类、层次聚类、网格聚类等。图5.1是基于用户大数据聚类的图书协同推荐示意图,首先通过聚类合并用户节点,然后计算不同用户类别之间的相似度,发现A类用户与C类用户相似,便为A类用户推荐C类用户喜欢的图书。聚类挖掘有助于提升推荐的新颖度,从而给用户带来惊喜。

②基于物品的协同过滤推荐。通过不同物品之间的相似度来进行物品的推荐预测。在高校图书馆文献个性化服务中,计算目标用户的已评价文献和待评价文献之间的相似度,给出待评文献的评价预测。类似于基于用户的协同过滤推荐,可以对文献进行聚类,提高推荐结果的新颖度。

图5.1 基于用户大数据聚类的图书协同过滤推荐

③基于模型的协同过滤推荐。通过对用户的历史图书文献评价信息进行学习以构建用户模型,以用户模型为基础进行图书的评价预测。在大数据环境下,可以使用概率模型、贝叶斯网络、人工神经网络等数据挖掘技术来实现基于模型的协同过滤。通过大数据挖掘算法训练历史数据得到模型,然后根据模型向图书馆用户推荐图书文献。

④混合推荐算法。综合多种推荐技术产生的多种推荐结果,为用户生成最后的推荐列表。混合推荐能够避免单一推荐技术的弱点,使各种推荐技术互补长短。模型级联融合和模型加权融合是推荐模型融合的两种方式。模型加权融合问题是一个典型的回归问题,除了线性融合,所有的回归算法都可以用于模型融合,如人工神经网络。采用大数据回归算法,可以提高推荐结果的精准性。

2.大数据挖掘技术在个性化检索和推送中的应用

在大数据环境下的高校图书馆个性化服务中,除了个性化推荐,大数据挖掘也可以提高个性化检索和推送的质量。在个性化推送中,可以用聚类来进行用户分组,进而分析各组特征,为不同组的用户推荐不同的文献。检索引擎中的各种链接分析、排序算法、相关性模型也都可以利用大数据挖掘技术来提升精准性,例如用户查询的分类就是常见的应用。