在大数据时代,个性化推荐、检索和推送是高校图书馆的三种重要的个性化服务方式,它们之间有联系,也有区别。大数据环境下高校数字图书馆的高级检索应用也需要个性化,进一步提高检索结果的精准性和检索结果排序的合理性。推送系统能充分体现高校数字图书馆以用户为中心的管理理念,促进师生更积极地借阅图书,激发创新热情。......
2023-07-24
1.大数据挖掘的云计算支撑环境
高校图书馆大数据具有“4V”特征,需要高性能的计算平台支持,从而进行大规模数据的分布式、并行处理。“4V”特征给大数据挖掘带来的挑战是数据输入输出交换和数据移动的代价很高,以及需要在不同站点间分析数据挖掘模型间的关系。高校图书馆大数据挖掘需要新的云计算基础构架支撑。
诸多云计算设施中,Hadoop为用户提供了一个快速、可靠的大数据分析和处理平台。[16]它由两项关键服务构成:一是采用分布式文件系统HDFS(Hadoop Distributed File System)实现可靠数据存储服务;二是利用MapReduce映射/规约技术和Spark内存计算技术提供高性能并行数据处理服务。Hadoop具有高容错性、高扩展性、高可靠性、高效性等优点。由于Hadoop是开源软件,成本不高,对硬件的要求也不高,具有低成本的优势,适合高校图书馆采用。
此外,诸多运行在Hadoop平台上的软件产品组成一个生态系统,共同实现全面、灵活的大数据分析和处理。例如,Mahout、R等软件既可以满足高校图书馆大数据挖掘的需求,而且是开源项目,可以免费获取使用,从而帮助高校图书馆节省资金。
2.高校图书馆大数据挖掘方案设计
基于上述分析,以Hadoop为大数据分析平台、MapReduce/Spark为计算框架设计了面向个性化服务的高校图书馆大数据挖掘解决方案。
在如图5.2所示的大数据挖掘实现方案中,主要模块分为数据收集、角色建模、算法实现和结果存储以及前端应用。角色建模、算法实现和结果存储属于离线部分,在线部分涉及数据收集和前端应用。
图5.2 面向个性化服务的高校图书馆大数据挖掘实现方案
(1)在线部分
①数据收集。通过开源分布式文件系统HDFS和HBase数据库管理系统实现高校图书馆大数据的存储以及数据读写。HDFS文件系统是一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统,为上层应用程序提供了一个逻辑上一体化的大规模数据存储文件系统。HBase是一个建立HDFS之上的分布式数据库,具有对结构化、半结构化和非结构化大数据的实时读写和随机访问能力。因为用户的行为记录会作为很多个性化服务算法的数据来源,所以需要收集用户访问的日志。此外,用户使用检索和推荐引擎本身的数据也会被记录,并以此来对后续的算法做进一步的优化。
②前端应用。主要用于接收网页或移动设备发过来的推荐请求,并经过必要的初步处理之后向推荐系统的后端引擎传递,并在获取后端返回的结果之后返回给用户。利用本体和云平台上的关联数据技术,结合海量语义网知识库的实时检索,为用户提供实时性、交互性的个性化服务。
(2)离线部分
①角色建模。主要包括用户建模和文献建模。用户建模是根据用户的统计信息和用户行为数据建立用户画像等模型,刻画其短期和中长期兴趣。文献建模是根据文献的领域属性,以及用户访问这些文献的数据,建立文献画像模型,刻画其本质特征。用户建模和文献建模有本体建模方法和非本体建模方法,这两种建模方法都可以在MapReduce/Spark计算框架下高效实现,模型都可以由HBase数据库进行分布式存储和检索。
②算法实现和结果存储。推荐、检索和推送算法是根据所建立的用户模型和文献模型,通过不同的方式进行计算,最终找到能与用户或输入所匹配的文献。利用大数据挖掘技术来优化算法,可进一步提高各种个性化服务质量,提升高校师生及相关工作人员的满意度。
Mahout是基于Hadoop和MapReduce计算框架的可扩展软件包,它具有处理高校图书馆大数据的能力。Mahout创建并提供了经典的数据挖掘和机器学习并行化算法类库。在Mahout中,针对基于用户的推荐和基于物品的推荐都已开发出现成的软件包,而且包含聚类、分类、频繁项集挖掘等广泛使用的数据挖掘算法。一方面,可以利用Mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用Mahout中已实现的相关算法来实现个性化服务。
R是一种著名的统计分析开源软件包,能把原始模型转变为图形和可视化视图。近年来,研究人员致力于集成R和Hadoop,使得R成为大数据平台上理想的分析和可视化工具。
最后将基于大数据挖掘技术得到的推荐、检索和推送结果存储于数据库中,以便于在线的实时访问。
3.数据特征选取
无论采用本体建模还是非本体建模,用户建模和文献建模的关键在于数据特征选取,在文献有了基于特征的数据表示之后便可以通过模型来分析它们。个性化服务通常需要基于内容、用户行为、专业知识和社交网络来计算相似度。考虑到目前的高校图书馆用户之间普遍还没有形成社交网络,可以选择基于内容和基于行为的特征。内容特征涵盖了文献的标题、摘要、分类和领域等,用户行为则涵盖了用户浏览、下载或借阅了哪些文献。基于内容和用户行为的特征可以相互融合,当用户流量不足时(缺乏用户访问日志),文献的内容及其特征非常重要,因为它不需要用户的访问记录,可以解决大数据挖掘系统中常常面临的“冷启动”问题。而当用户流量足够高的时候,从用户的行为特征中可以挖掘出内容本身难以发现的潜在语义,提供惊喜度更高的推荐结果。
(1)高校图书馆用户的常见内容特征。高校图书馆服务的主要对象是在校师生,即高校图书馆用户,其主要特征见表1。这里要注意区分用户的内容特征和访问行为特征。用户的内容特征强调的是除了文献浏览、下载、借阅等具体行为之外的特征。例如,表5.1中的系统访问属性只关心系统访问的次数、频次和周期等,并不考虑具体的浏览、下载、借阅等行为。
表5.1 高校图书馆用户的常见内容特征
(2)高校图书馆用户的常见行为特征。对于用户行为,需要考虑哪些行为特征可以纳入考量。以图书借阅为例,表5.2列出了高校图书馆用户行为特征的常用部分。对于这些特征或者说是不同类型的行为,应该赋予不同的权重。比如,浏览、收藏、预约、借阅和留下好评,代表用户对于图书的喜好程度由浅到深,在计算时的权重也需要从低到高。此外,目前人们考虑比较多的是正向特征,很少考虑负向特征。但是,对于特别讲究用户体验的高校图书馆个性化服务而言,负面的信息也同样重要,可以结合负向特征,通过算法设计进行某种规避或反向选择来实现推荐,往往能起到意料之外的推荐效果,大大提高用户的惊喜度和新颖度。
表5.2 高校图书馆用户图书使用的常见访问行为特征
4.个性化服务算法选取
高校图书馆要提供高质量的个性化服务,基础算法选取很重要。以协同过滤推荐算法来说,基于物品和基于用户的推荐各有其适用场合。这里从准确性、高效性、稳定性三个角度简单分析这两种方法在高校图书馆个性化服务中的适用性。
(1)准确性。推荐系统的准确性在很大程度上依赖于系统中用户数和物品数量间的比例。通常情况下,一小部分相似度高的用户,其价值远远高于一大部分相似度较低的近邻。在大型商业系统的购物网站中,如果用户之间的区分度不够,就很难界定哪些是真正高相似度的用户,此时宜采用基于物品的协同过滤。高校图书馆用户包括学生、教师、实验师、行政人员等类别,每一类用户又可以细分,如学生有不同专业、年级等,用户之间区分度较高,在这种情形下,采用基于用户的协同过滤能使高校图书馆个性化推荐更为精准。
(2)高效性。一般情况下,大数据挖掘部分是离线计算,并不要求实时返回结果。但是,现在也出现了需要实时性挖掘结果的应用。因此,需要尽可能提高挖掘效率。当用户数量远远大于物品数量时,物品的相似度计算所消耗的资源要远远小于用户的相似度计算,因此基于物品的协同过滤效率更高。反之,基于用户的协同过滤会更高效。由于高校图书馆通常拥有的文献数量远大于用户数量,采用基于用户的协同过滤效果更佳。
(3)稳定性。一般而言,推荐系统的物品记录和用户数目常会动态变化,如果系统中物品集合比用户集合更稳定,则宜采用基于物品的方法以避免频繁的数据计算和更新,反之,宜采用基于用户的方法。对于高校图书馆而言,一方面,学校每年都有新生入学,也有学生毕业,学生用户不稳定;另一方面,图书馆每年都会购入新书,引入新文献。从稳定性的角度来看,基于用户的方法和基于物品的方法难分伯仲。
综上所述,高校图书馆个性化推荐服务实现宜采用基于用户的协同过滤算法,也可以采用基于用户和基于物品的混合算法。
总而言之,大数据时代的来临,使得高校图书馆个性化服务面临着信息过载和知识迷航的问题。采用大数据挖掘技术,可以准确分析各类用户对文献的需求,在个性化服务方面提高用户的满意度、惊喜度。另外,本节还分析了高校图书馆文献推荐、检索和推送三种重要的个性化服务的特点及相互联系,重点讨论了大数据挖掘技术在高校图书馆个性化推荐中的应用模式。在此基础上,基于Hadoop云计算平台设计了面向个性化服务的高校图书馆大数据挖掘实现方案,并详述了关键部分的解决方法,包括大数据挖掘工具、用户常见内容和行为特征的选择、基础个性化服务算法的选取等。这些研究成果对于大数据环境下提升高校图书馆个性化服务质量具有良好的借鉴和指导意义。
有关高校图书馆大数据应用模式与实证研究的文章
在大数据时代,个性化推荐、检索和推送是高校图书馆的三种重要的个性化服务方式,它们之间有联系,也有区别。大数据环境下高校数字图书馆的高级检索应用也需要个性化,进一步提高检索结果的精准性和检索结果排序的合理性。推送系统能充分体现高校数字图书馆以用户为中心的管理理念,促进师生更积极地借阅图书,激发创新热情。......
2023-07-24
应用数据挖掘技术有助于解决高校图书馆大数据应用中的知识迷航和信息过载问题。李艳等[13]从宏观上研究了高校图书馆大数据挖掘与决策分析体系,设计了基于高校图书馆特点的体系架构模型与业务分析流程,并探讨该体系架构在个性化服务中的应用。Yi C等[14]提出将数据挖掘算法应用到高校图书馆大数据个性化推送服务,着重讨论了关联规则算法和聚类算法的应用。......
2023-07-24
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2023-07-24
关联规则是数据挖掘领域中的重要算法,经典的关联规则算法广泛应用于零售领域的购物篮分析。在高校图书馆个性化服务中,关联规则可以用来发现用户使用文献之间的关系,发现同时被频繁使用的文献,从而帮助系统在用户浏览、下载、借阅时向其推荐相关文献。......
2023-07-24
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2023-07-24
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2023-07-24
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2023-07-24
大数据环境下个性化服务的研究引起学界重视。大数据技术的迅速发展以及图书馆个性化服务要求的不断提高,催生了大数据环境下个性化服务的研究,尤其是在关联数据技术与个性化服务结合方面取得了积极进展。以下结合大数据环境下个性化服务特征,讨论用户行为模型的构建策略。......
2023-07-24
相关推荐