首页 理论教育高校图书馆大数据应用模式与实证研究:个性化服务方案

高校图书馆大数据应用模式与实证研究:个性化服务方案

【摘要】:利用大数据挖掘技术来优化算法,可进一步提高各种个性化服务质量,提升高校师生及相关工作人员的满意度。一方面,可以利用Mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用Mahout中已实现的相关算法来实现个性化服务。

1.大数据挖掘的云计算支撑环境

高校图书馆大数据具有“4V”特征,需要高性能的计算平台支持,从而进行大规模数据的分布式、并行处理。“4V”特征给大数据挖掘带来的挑战是数据输入输出交换和数据移动的代价很高,以及需要在不同站点间分析数据挖掘模型间的关系。高校图书馆大数据挖掘需要新的云计算基础构架支撑。

诸多云计算设施中,Hadoop为用户提供了一个快速、可靠的大数据分析和处理平台。[16]它由两项关键服务构成:一是采用分布式文件系统HDFS(Hadoop Distributed File System)实现可靠数据存储服务;二是利用MapReduce映射/规约技术和Spark内存计算技术提供高性能并行数据处理服务。Hadoop具有高容错性、高扩展性、高可靠性、高效性等优点。由于Hadoop是开源软件,成本不高,对硬件的要求也不高,具有低成本的优势,适合高校图书馆采用。

此外,诸多运行在Hadoop平台上的软件产品组成一个生态系统,共同实现全面、灵活的大数据分析和处理。例如,Mahout、R等软件既可以满足高校图书馆大数据挖掘的需求,而且是开源项目,可以免费获取使用,从而帮助高校图书馆节省资金。

2.高校图书馆大数据挖掘方案设计

基于上述分析,以Hadoop为大数据分析平台、MapReduce/Spark为计算框架设计了面向个性化服务的高校图书馆大数据挖掘解决方案

在如图5.2所示的大数据挖掘实现方案中,主要模块分为数据收集、角色建模、算法实现和结果存储以及前端应用。角色建模、算法实现和结果存储属于离线部分,在线部分涉及数据收集和前端应用。

图5.2 面向个性化服务的高校图书馆大数据挖掘实现方案

(1)在线部分

①数据收集。通过开源分布式文件系统HDFS和HBase数据库管理系统实现高校图书馆大数据的存储以及数据读写。HDFS文件系统是一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统,为上层应用程序提供了一个逻辑上一体化的大规模数据存储文件系统。HBase是一个建立HDFS之上的分布式数据库,具有对结构化、半结构化和非结构化大数据的实时读写和随机访问能力。因为用户的行为记录会作为很多个性化服务算法的数据来源,所以需要收集用户访问的日志。此外,用户使用检索和推荐引擎本身的数据也会被记录,并以此来对后续的算法做进一步的优化

②前端应用。主要用于接收网页或移动设备发过来的推荐请求,并经过必要的初步处理之后向推荐系统的后端引擎传递,并在获取后端返回的结果之后返回给用户。利用本体和云平台上的关联数据技术,结合海量语义网知识库的实时检索,为用户提供实时性、交互性的个性化服务。

(2)离线部分

①角色建模。主要包括用户建模和文献建模。用户建模是根据用户的统计信息和用户行为数据建立用户画像等模型,刻画其短期和中长期兴趣。文献建模是根据文献的领域属性,以及用户访问这些文献的数据,建立文献画像模型,刻画其本质特征。用户建模和文献建模有本体建模方法和非本体建模方法,这两种建模方法都可以在MapReduce/Spark计算框架下高效实现,模型都可以由HBase数据库进行分布式存储和检索。

②算法实现和结果存储。推荐、检索和推送算法是根据所建立的用户模型和文献模型,通过不同的方式进行计算,最终找到能与用户或输入所匹配的文献。利用大数据挖掘技术来优化算法,可进一步提高各种个性化服务质量,提升高校师生及相关工作人员的满意度。

Mahout是基于Hadoop和MapReduce计算框架的可扩展软件包,它具有处理高校图书馆大数据的能力。Mahout创建并提供了经典的数据挖掘和机器学习并行化算法类库。在Mahout中,针对基于用户的推荐和基于物品的推荐都已开发出现成的软件包,而且包含聚类、分类、频繁项集挖掘等广泛使用的数据挖掘算法。一方面,可以利用Mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用Mahout中已实现的相关算法来实现个性化服务。

R是一种著名的统计分析开源软件包,能把原始模型转变为图形和可视化视图。近年来,研究人员致力于集成R和Hadoop,使得R成为大数据平台上理想的分析和可视化工具。

最后将基于大数据挖掘技术得到的推荐、检索和推送结果存储于数据库中,以便于在线的实时访问。

3.数据特征选取

无论采用本体建模还是非本体建模,用户建模和文献建模的关键在于数据特征选取,在文献有了基于特征的数据表示之后便可以通过模型来分析它们。个性化服务通常需要基于内容、用户行为、专业知识和社交网络来计算相似度。考虑到目前的高校图书馆用户之间普遍还没有形成社交网络,可以选择基于内容和基于行为的特征。内容特征涵盖了文献的标题、摘要、分类和领域等,用户行为则涵盖了用户浏览、下载或借阅了哪些文献。基于内容和用户行为的特征可以相互融合,当用户流量不足时(缺乏用户访问日志),文献的内容及其特征非常重要,因为它不需要用户的访问记录,可以解决大数据挖掘系统中常常面临的“冷启动”问题。而当用户流量足够高的时候,从用户的行为特征中可以挖掘出内容本身难以发现的潜在语义,提供惊喜度更高的推荐结果。

(1)高校图书馆用户的常见内容特征。高校图书馆服务的主要对象是在校师生,即高校图书馆用户,其主要特征见表1。这里要注意区分用户的内容特征和访问行为特征。用户的内容特征强调的是除了文献浏览、下载、借阅等具体行为之外的特征。例如,表5.1中的系统访问属性只关心系统访问的次数、频次和周期等,并不考虑具体的浏览、下载、借阅等行为。

表5.1 高校图书馆用户的常见内容特征

(2)高校图书馆用户的常见行为特征。对于用户行为,需要考虑哪些行为特征可以纳入考量。以图书借阅为例,表5.2列出了高校图书馆用户行为特征的常用部分。对于这些特征或者说是不同类型的行为,应该赋予不同的权重。比如,浏览、收藏、预约、借阅和留下好评,代表用户对于图书的喜好程度由浅到深,在计算时的权重也需要从低到高。此外,目前人们考虑比较多的是正向特征,很少考虑负向特征。但是,对于特别讲究用户体验的高校图书馆个性化服务而言,负面的信息也同样重要,可以结合负向特征,通过算法设计进行某种规避或反向选择来实现推荐,往往能起到意料之外的推荐效果,大大提高用户的惊喜度和新颖度。

表5.2 高校图书馆用户图书使用的常见访问行为特征

4.个性化服务算法选取

高校图书馆要提供高质量的个性化服务,基础算法选取很重要。以协同过滤推荐算法来说,基于物品和基于用户的推荐各有其适用场合。这里从准确性、高效性、稳定性三个角度简单分析这两种方法在高校图书馆个性化服务中的适用性。

(1)准确性。推荐系统的准确性在很大程度上依赖于系统中用户数和物品数量间的比例。通常情况下,一小部分相似度高的用户,其价值远远高于一大部分相似度较低的近邻。在大型商业系统的购物网站中,如果用户之间的区分度不够,就很难界定哪些是真正高相似度的用户,此时宜采用基于物品的协同过滤。高校图书馆用户包括学生、教师、实验师、行政人员等类别,每一类用户又可以细分,如学生有不同专业、年级等,用户之间区分度较高,在这种情形下,采用基于用户的协同过滤能使高校图书馆个性化推荐更为精准。

(2)高效性。一般情况下,大数据挖掘部分是离线计算,并不要求实时返回结果。但是,现在也出现了需要实时性挖掘结果的应用。因此,需要尽可能提高挖掘效率。当用户数量远远大于物品数量时,物品的相似度计算所消耗的资源要远远小于用户的相似度计算,因此基于物品的协同过滤效率更高。反之,基于用户的协同过滤会更高效。由于高校图书馆通常拥有的文献数量远大于用户数量,采用基于用户的协同过滤效果更佳。

(3)稳定性。一般而言,推荐系统的物品记录和用户数目常会动态变化,如果系统中物品集合比用户集合更稳定,则宜采用基于物品的方法以避免频繁的数据计算和更新,反之,宜采用基于用户的方法。对于高校图书馆而言,一方面,学校每年都有新生入学,也有学生毕业,学生用户不稳定;另一方面,图书馆每年都会购入新书,引入新文献。从稳定性的角度来看,基于用户的方法和基于物品的方法难分伯仲。

综上所述,高校图书馆个性化推荐服务实现宜采用基于用户的协同过滤算法,也可以采用基于用户和基于物品的混合算法。

总而言之,大数据时代的来临,使得高校图书馆个性化服务面临着信息过载和知识迷航的问题。采用大数据挖掘技术,可以准确分析各类用户对文献的需求,在个性化服务方面提高用户的满意度、惊喜度。另外,本节还分析了高校图书馆文献推荐、检索和推送三种重要的个性化服务的特点及相互联系,重点讨论了大数据挖掘技术在高校图书馆个性化推荐中的应用模式。在此基础上,基于Hadoop云计算平台设计了面向个性化服务的高校图书馆大数据挖掘实现方案,并详述了关键部分的解决方法,包括大数据挖掘工具、用户常见内容和行为特征的选择、基础个性化服务算法的选取等。这些研究成果对于大数据环境下提升高校图书馆个性化服务质量具有良好的借鉴和指导意义。