首页 理论教育高校图书馆大数据应用研究成果

高校图书馆大数据应用研究成果

【摘要】:针对各种不同类型的图书馆数据服务,开展图书馆大数据应用模式及其实证研究具有重要意义。国内学者近年来也开始讨论高校图书馆大数据应用模式和技术问题。因此,在本研究中将大规模网络分析方法和内存计算技术作为沟通图书馆数据应用需求和大数据应用的首选方法和重要技术工具,有着内在的必然性。

云计算、物联网和移动互联网信息技术的飞速发展和广泛应用,产生了海量的结构化、半结构化和非结构化数据,这些在组成结构、类型格式和存在形态上各具特点的数据具有“种类多(Variety),流量大(Velocity),容量大(Volume)和价值高(Value)”的“4V”特征[1],信息技术的发展也由此正式进入大数据时代。近年来,伴随高校图书馆数字化进程的迅速推进,图书馆数据在一定程度上具备了大数据的“4V”特征:数据种类繁多;数据量日益庞大且增长迅速,数据服务的个性化和学科化趋势导致对海量数据的实时分析和潜在价值挖掘的需求也在快速增长等。这些特征给承载着知识的收集存储、分析开发与创新应用重任的高校图书馆及以文献资料分析为基础的图书馆数据服务工作带来了严峻挑战。针对各种不同类型的图书馆数据服务,开展图书馆大数据应用模式及其实证研究具有重要意义。

1.图书馆大数据应用模式和服务研究现状

(1)国外学者关注图书馆大数据应用模式和服务需求并讨论大数据应用技术问题。在图书馆大数据的数据服务方面,Sugimoto[2]从数据组织、存储、检索、管理等角度讨论图书馆的信息科学服务(Library and Information Science)在大数据时代面临的诸多挑战并提出应对计划;Rousseau R[3]指出图书馆数据服务在大数据环境下应着重关注用户数据挖掘、学科知识发现和数据社区构建及服务等方面;Auckland M[4]和Corral S[5]等讨论了大数据时代图书馆从业者的角色转型和从业者必备的数据服务技能问题。在大数据应用技术方面,Teets M[6]和Qiu J[7]等聚焦图书馆大数据应用落地问题,先后提出基于WorldCat数据库和基于HPC-ABDS(High Performance Computing Big Data Stack)的图书馆大数据应用框架;Huwe T K[8]总结近来大数据发展的趋势,认为当前新兴的且正在快速发展的内存计算(In-memory Computing)技术具有实时处理大规模数据和高效挖掘知识的双重优点,是图书情报领域未来支撑图书馆数据服务的重要技术。

(2)国内学者近年来也开始讨论高校图书馆大数据应用模式和技术问题。应用模式方面,樊伟红等[9]分析了大数据时代国内图书馆服务在应用技术、知识创新和硬件成本等方面所面临的巨大挑战,并提出对策指出未来对图书馆大数据挖掘和应用将在图书馆知识服务、用户行为分析、智能决策方面发挥重要作用;韩翠峰[10]从重视用户数据、增加数据分析服务和高效利用数据分析技术与工具三个不同角度探讨图书馆大数据服务的创新问题;王天泥[11]认为,知识咨询是大数据情景下图书馆未来咨询服务的新模式;马晓亭[12]提出一种采用多层次系统结构的图书馆大数据资源整合平台的技术框架。在应用技术方面,Chen M等[13]探讨了包括图书馆大数据的数据存储、数据挖掘以及个性化服务等具体技术,提出以Hadoop+MapReduce并行架构为主要技术的大数据应用方案。Chen C L P等[14]提出了数据存储、清洗与整合、分析和挖掘以及可视化与决策的图书馆大数据的应用流程及对应大数据平台和大数据软件系统实现技术。

国内外学者从多角度探讨了图书馆大数据分析应用面临的挑战,明确关注服务创新,提出应对策略,但是在有关图书馆大数据应用模式创新研究以及具体应用方法分析方面存在缺陷;发现并提出图书馆大数据应用和开发的计算成本高昂问题,但在如何基于高校图书馆当前有限硬件设备,构建既满足实时计算,又经济适用的大数据应用平台的相关解决方案方面,缺少系统而深入的研究。

2.大规模网络分析方法和内存计算技术

网络分析方法是当前图书情报领域研究的热点。该方法近年来广泛应用于信息检索、用户行为分析和信息计量学研究,对网络知识挖掘、网络信息行为以及知识管理领域的发展起到了重大推动作用。[15]网络分析方法可以与知识管理理论[16]密切结合起来,在知识管理理论中,将知识分为用文字、图表和数学公式等描述的“显性知识”和难以描述的“隐性知识”,可以通过构建“语义网”模型,以此为基础设计对应算法挖掘“显性知识”,构建“社会网络”模型分析用户个体行为和用户群体关系,并在用户群体之间实现“显性知识”和“隐性知识”共享和转移,从而辅助知识传播、知识创新和智能决策。

随着图书馆数据的急剧增加,网络规模可达到千万以上数量级别,海量数据的实时计算、分析挖掘和可视化成为图书馆大数据应用能否真正落地的关键问题。中国计算机学会大数据专家委员会早在2015年预测大数据发展趋势时曾经指出,既有的数据分析方法因计算速度低下等原因难以适应大规模分布式计算和实时性的要求,内存计算技术逐渐成为各行业大数据应用的重要技术。[17]近年来,开源组织Apache提出了Hadoop+Spark+GraphX大规模网络分析和计算框架[18],其优点是:

(1)性能优越。该框架中的Spark是内存计算技术,数据处理仅运行于计算机内存中,避免在硬盘和内存频繁交换数据的时间消耗。该框架能进行千万级别数据的实时计算和大规模网络分析和挖掘。

(2)开源免费。能在普通的PC机器上构建云计算环境,实现海量数据分布式存储和集群计算。该框架已经应用于淘宝网、新浪微博和网易商业领域大数据计算和挖掘,在用户分析、个性化推送服务和智能决策等方面发挥重要作用。

综上所述,大规模网络分析一方面作为图书情报领域知识发现、知识共享和传播的重要研究方法,另一方面由于其与内存计算技术结合,在商业大数据领域应用非常成功。因此,在本研究中将大规模网络分析方法和内存计算技术作为沟通图书馆数据应用需求和大数据应用的首选方法和重要技术工具,有着内在的必然性。

3.图书馆大数据应用模式

(1)大数据应用模式概念。“应用模式”一词目前在学界没有确切定义,模式(Pattern)广泛应用于各领域,如商业模式、设计模式和管理模式等,其具体含义千差万别。在百度互动百科的词条(http://www.baike.com/wiki/模式)中,模式一般指“从生产或生活经验中经过抽象和升华提炼出来的核心知识体系,是解决某一类问题的方法论。”依据这一描述,将本书中的高校图书馆大数据应用模式粗略概括为解决图书馆大数据应用问题的方法和知识体系:针对大数据背景下,高校图书馆数据服务面临的挑战,基于相关理论和信息技术手段,提出解决问题的一系列方案,并进行理论总结,最终形成可复用的知识体系。

(2)图书馆大数据应用模式框架及所面临的挑战。一般可以遵循数据应用过程来构建图书馆大数据应用模式框架,数据应用过程包括数据收集与整合、数据处理和分析、数据服务和硬件资源组织等过程。

①海量数据的收集与整合子模式。主要包含图书馆馆藏资源(纸质资源、光盘资源、网络资源和数据库资源等)的结构化数据和来自于日常服务信息等非结构化数据,这些体量巨大、格式不同的数据需要整合成规范、统一的表示形式,构建具体数据模型以利于进一步分析。

②图书馆大数据处理和分析子模式。图书馆大数据信息量庞大且复杂多样,因此数据分析和挖掘工作具有重要意义。传统的数据挖掘方法难以满足包含关系型数据,非结构化的、半结构化数据的挖掘以及深度分析的诸多需求,需要具有高计算能力的计算平台支持并在此基础上构建新的分析模型、开发新的分析方法和应用新的分析工具。

③图书馆知识服务子模式。开展知识服务是高校图书馆服务的重要任务,需要综合利用包括馆藏资源和互联网、物联网资源等各类数据资源,对其中的知识搜寻、组织、分析、重组,并密切结合用户的具体需求和所处的软硬件环境,提供高效的知识应用和知识创新的支撑服务,如大数据环境下针对高校教学和科研的学科知识服务和面向高校师生的个性化推荐服务等。

④硬件资源组织子模式。随着图书馆数据的迅速增加,所需的数据存储及计算资源也随之增加,购买相应设备需要投入更多的资金。然而面对高校在图书馆计算设备和应用软件的经费投入有限的现实情况,如何在有限的设备上搭载高性能计算任务,必须寻求有效的解决方案。当前越来越多的知识服务机构在数据应用设备购置时,压缩购买高端服务器的费用,而逐步转向利用已有的中低端硬件构成的大规模计算机集群来满足应用需求,以降低知识服务成本。