关联规则是数据挖掘领域中的重要算法,经典的关联规则算法广泛应用于零售领域的购物篮分析。在高校图书馆个性化服务中,关联规则可以用来发现用户使用文献之间的关系,发现同时被频繁使用的文献,从而帮助系统在用户浏览、下载、借阅时向其推荐相关文献。......
2025-09-29
本节所设计的个性化服务方案主要偏重从用户行为建模角度分析,包括提取用户显性兴趣本体、提取用户隐性需求本体和设计个性化服务流程3个关键步骤。考虑到用户日志数据库体量庞大,且增长迅速,在应用上需要采用大数据分析框架。Hadoop[40]是当前大数据分布式处理的著名软件平台,由Hadoop分布式文件系统HDFS、并行计算框架MapReduce[41]以及Hadoop的分布式数据库(HBase)等子项目组成,能够以可靠、高效和可伸缩的方式处理海量数据。MapReduce计算框架包括Map函数、Reduce函数和Main函数3个组成部分。其中Map函数接受一组数据并将其转换为一个键/值对列表<Key,Value>;Reduce函数接受Map函数生成的键/值对列表,然后合并计算具有相同键的数据项;Main函数主要用于控制大数据分析流程和文件的输入/输出。
1.用户兴趣本体提取流程
首先要进行用户兴趣度的定义和计算。用户兴趣度是用来描述用户对某本图书(或某个知识)的兴趣程度,通过统计用户对图书(知识)的浏览、检索、收藏、评论、借阅(或下载)行为的量化评分,反映用户对图书(知识)的兴趣,其计算表达式为:兴趣度=浏览+检索+收藏+评论+借阅(或下载)。计算规则如下:对于“浏览”行为,先确定浏览的时间段阈值(如10秒),当用户某次连续浏览的时间大于等于该阈值,计1分,间断后再浏览则重复累计,否则计0分;当用户有“检索”“收藏”“借阅”(或“下载”)的行为,计1分,否则计0分;当用户有“评论”行为,如果为正面、积极的内容,计1分,否则计-1分。累计的总分即为用户对该图书(或知识)的兴趣度,当该图书(或该项知识)的用户兴趣度值达到预先确定的阈值时,提取其对应的本体术语,并存储为该用户的兴趣本体。值得注意的是,用户兴趣本体只针对单个用户,从该用户的行为日志数据库中提取。Hadoop大数据平台下基于MapReduce框架的提取流程如下:
(1)MapReduce框架中用户日志数据的预处理。将某个用户id映射到MapReduce框架中<Key,Value>键值对的Key值,该用户id记录的“浏览,检索,收藏,评论,借阅(或下载)”行为次数映射到Value值。
(2)Reduce统计阶段。依照“用户兴趣度”统计规则计算用户兴趣度的值,即将同一用户id的各类Value累加。
(3)用户兴趣本体术语提取和保存。如果“用户兴趣度”大于系统设置的阈值,将本体术语作为兴趣本体提取并保存。例如,如果用户对“软件工程”这个本体术语对应图书(或知识)的“浏览,检索,收藏,评论,借阅(或下载)”行为达到一定的次数,其用户兴趣度达到阈值条件,就将“软件工程”术语提取为兴趣本体并保存,如图5.6所示。
2.用户需求本体提取流程
基于用户行为日志数据库,应用数据挖掘算法提取“用户需求”本体,相关算法有关联规则挖掘和协同过滤等方法,这里以关联规则为例说明:
关联规则算法依据全体用户的日志挖掘本体术语之间的相关性,通过统计数据项获得频繁项集。在著名的“啤酒”和“尿布”案例中数据项“啤酒”和数据项“尿布”即是经过大数据统计“发现”的频繁关联项。这里以关联规则中的Apriori算法为例讨论提取用户需求本体的流程,该算法包括3个步骤,如图5.7所示。
图5.6 用户兴趣本体提取流程
(1)MapReduce框架中用户行为日志数据的预处理。与用户兴趣本体提取流程的第一阶段相同,只是需要对全体的用户id操作。
(2)计算支持度。首先应用Reduce方法累计单个本体术语出现的频次,即单个术语支持度P(A);接着累计两个本体术语同时出现频次,即二元组(两个本体术语)的支持度P(AB)。(https://www.chuimin.cn)
(3)计算置信度。将二元组的支持度除以单个术语的支持度得到置信度,置信度的值越大,表明两个本体术语同时出现的概率越高。当置信度大于预先设置的阈值时,算法即认为“图书本体术语A”与“图书本体术语B”是“可以置信”的频繁关联项。大量频繁关联项的集合即为频繁关联项集,当用户在系统中检索时,将检索语句的特征词与该术语频繁关联的另一本体术语作为搜索词在书目库(或知识库)中查询,将检索到的相关结果作为隐性需求推荐给该用户。
图5.7 用户隐性需求本体提取流程
值得注意的是,因为频繁关联项集是基于所有用户的行为日志应用关联规则挖掘的结果,因此该频繁关联项集可供所有用户共用,并非只用于某一用户的个性化推荐。
3.基于用户兴趣和需求驱动的个性化服务
在应用大数据平台提取用户兴趣和需求本体的基础上,提供的个性化服务过程如图5.8所示,为方便说明,以“图书服务”为例说明。
图5.8 基于用户兴趣和需求驱动的个性化服务过程
(1)“登录”过程中基于用户兴趣本体的个性化推荐
假设用户id为“20160001”的图书服务兴趣本体的系列术语中包含“语义网”“软件工程”等,需求本体的频繁项集中包括某条关联规则为“图书情报”→“知识管理”。该用户登录后,系统自动获取该用户id感兴趣的本体术语“语义网”和“软件工程”,并以其作为查询词,从知识库中查询到相关书目推荐给用户。
(2)“检索”过程中基于用户需求本体的个性化推荐
已登录的用户“20160001”具有检索权限,假设用户的检索语句是“近年来图书情报领域专著有哪些?”系统应用语义分词技术,并映射得到的本体术语为“图书情报”;通过查询频繁关联项集,找到了“图书情报”→“知识管理”这一对频繁项,因而获得另一本体术语“知识管理”,同时将“图书情报”和“知识管理”作为关键词从关联的书目库(或知识库)中查到结果推荐给该用户。其中以“图书情报”作为本体术语的查询结果直接来自于用户问题,是正常检索,而以“知识管理”作为本体术语的查询来自于数据挖掘的结果,是隐性需求的个性化推荐。
相关文章
关联规则是数据挖掘领域中的重要算法,经典的关联规则算法广泛应用于零售领域的购物篮分析。在高校图书馆个性化服务中,关联规则可以用来发现用户使用文献之间的关系,发现同时被频繁使用的文献,从而帮助系统在用户浏览、下载、借阅时向其推荐相关文献。......
2025-09-29
应用数据挖掘技术有助于解决高校图书馆大数据应用中的知识迷航和信息过载问题。李艳等[13]从宏观上研究了高校图书馆大数据挖掘与决策分析体系,设计了基于高校图书馆特点的体系架构模型与业务分析流程,并探讨该体系架构在个性化服务中的应用。Yi C等[14]提出将数据挖掘算法应用到高校图书馆大数据个性化推送服务,着重讨论了关联规则算法和聚类算法的应用。......
2025-09-29
在大数据时代,个性化推荐、检索和推送是高校图书馆的三种重要的个性化服务方式,它们之间有联系,也有区别。大数据环境下高校数字图书馆的高级检索应用也需要个性化,进一步提高检索结果的精准性和检索结果排序的合理性。推送系统能充分体现高校数字图书馆以用户为中心的管理理念,促进师生更积极地借阅图书,激发创新热情。......
2025-09-29
构建用户个性化模型、实现个性化推荐,缓解“信息过载”。根据以上分析,本研究拟基于本体和关联数据技术,构建用户行为模型,通过分析显性用户兴趣和隐性用户需求,提供大数据情景下的图书馆个性化服务。......
2025-09-29
基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研......
2025-09-29
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2025-09-29
两类数据均截至2016年12月31日。首先是Spark关联计算,将馆藏图书数据库和论文数据库聚合,构建RDD关联三元组,然后转换为GraphX图计算,实现对关联结果排名并保存到数据库中,最后开发Web实时系统显示文献查询结果。其中,“图书与图书”通过“中图法分类名”关联的三元组数目最大,达到14亿多条。这两类关联占三元组总数的比例近95%,共同构成“字符比较”关联的主体部分。这是因为计算过程中Spark中间结果存储在内存中,提高了性能。......
2025-09-29
究其原因,高校图书馆大数据应用正处于起步阶段,数据收集整合、数据分析和知识服务方法有待发展,相关技术有待突破;另外,高校图书馆数据量激增,海量存储的急切需求和计算设备性能的急待提高与资金投入受限也存在尖锐的矛盾。上述因素使得当前高校图书馆大数据应用陷入困境,阻碍了高校图书馆大数据服务的开展。大数据实时处理和高效分析是图书馆知识服务的前提,也是图书馆大数据应用落地的关键。......
2025-09-29
相关推荐