首页 理论教育高校图书馆大数据应用模式研究成果

高校图书馆大数据应用模式研究成果

【摘要】:基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研

基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。

1.数据收集、整合和存储模式

图书馆馆藏资源的结构化数据以及由日常服务产生的半结构化和非结构化数据等,可以手工录入或通过软件平台的相关接口存入数据库;对于知名的文献数据库,高校图书馆可以采取签约合作的方式获取数据库使用和研究权限。另外,用户可以针对本校特色和优势学科,利用网络数据自动抓取工具获取感兴趣的数据资源,自己构建该学科的文献数据库,完成数据的收集。

图3.1 高校图书馆大数据应用模式框架

结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。一般而言,在大数据的4个特征中,数据的多样性是更为本质的特征,对不同类型数据资源的选择和恰当整合非常重要,即整合什么和如何整合的问题。从参与整合的资源角度来看,在特定需求的应用研究中,要着重考虑,整合哪些类型的数据库。一般可选择相关性较高的数据资源,同时注意这些数据存在大量冗余,需要有效清洗,形成具有一定相关性、丰富多样性的高质量图书馆大数据;从整合和存储的方法来看,这些格式不同的数据需要构建相应的数据模型,形成规范、统一的表示格式,存储于云平台上的分布式数据库,并能方便地通过网络实现快速查询和检索。

在高校图书馆大数据应用模式框架中,恰当选择包括有本单位学科特色数据库在内的多种类型的相关数据库,对不同格式数据(电子资源、数据日志、科研数据以及媒体数据等)进行元数据统一建模,经过数据分类和清洗,融合成格式一致、结构清晰和扩展性好的基础数据;在技术实施方面,基于Hadoop云平台上SQL和HBase(NoSQL)等数据库,采用ETL,即数据抽取(Extract)、转换(Transform)、加载(Load)技术整合处理后,进行分布式存储并检索。[5]

2.数据处理和分析模式

图书馆大数据分析模式主要包括数据分析和数据挖掘方法的选取和应用。数据分析一般基于文件形式或者单个数据库的方式组织,有明确的分析目标;数据挖掘则是指在没有明确假设的前提下去挖掘信息、发现知识,建立在数据仓库或是分布式存储的数据库基础上。由于数据体量大和类型众多,一方面,需要具有高计算能力平台的支持以提高大数据处理速度,实时输出分析结果;另一方面,由于图书馆大数据应用的主要任务是知识发现,需要结合知识管理理论,采用适合形式化表述知识的工具(如知识本体),以及开发分析模型和相适用的数据挖掘算法进行分析,得出有较高价值的结果。

在高校图书馆大数据应用模式框架中,以语义网方法分析学科数据为例,分析不同用户检索浏览或借阅等相关数据特征,结合学科知识本体和学科数据库,以学科术语或概念等为图节点,相关联系为图形中的边,依据不同需求构建各类大规模语义网分析和预测模型,应用机器学习等算法,挖掘不同学科、不同时期的用户感兴趣主题等显性知识,分析演化规律和发展趋势;以社会网络分析方法为例,依据用户的借阅和浏览信息、用户特长等基础数据,将用户相关属性抽象成图节点,属性之间的联系为边,构建大规模社会网络分析模型,挖掘显性和隐性知识,发现网络中的社区、专家或关键人物,研究隐性知识的转移和共享模式;在技术上可采用大规模图数据挖掘技术以及Matlab、NetMiner和SPSS等工具辅助分析。

3.知识展现与服务模式

知识展现和服务模式一般可采用可视化技术,以构建知识地图的方式呈现知识发展的变化趋势。高校图书馆学科服务是高校图书馆生存与发展的立足点,其水平的高低是衡量高校图书馆服务质量的重要指标[6],因此高校图书馆学科服务应紧紧围绕教学和科研需求,由同时具备专业背景和熟悉图书管理知识的图书馆专业人员(学科馆员),通过深度嵌入教学和学科研究领域,采用数据挖掘等方法获取专业领域知识,并以清晰明了的方式展现给教学和科研人员,重点支持知识应用和知识创新。个性化服务也是一种重要服务类型,需要针对用户的行为和习惯,以用户的需求为主导,对不同的用户采取相应的服务策略。具体实现技术包括个性化信息检索、个性化信息推荐等。

在高校图书馆大数据应用模式框架中,基于数据处理和分析的结果,以用户需求为指引,构建网络可视化模型,应用可视化算法和工具进行热点主题可视化分析,引文网络和作者合著关系可视化分析,生成表达学科、领域、专业、文献、著者之间关系的知识地图,显示相关知识领域的发展和演化趋势;构建用户分析模型,分析用户兴趣,准确定位用户需求,提供个性化信息推送服务。在技术实施上采用包括Grid Layout,force-directed等网络可视化算法以及Pajek,citeSpace等网络可视化工具。

4.基于Hadoop的大规模图计算的云平台

采用Hadoop大规模图计算的云平台以破解有限的计算设备和资金投入带来的挑战。近年来,处于节约计算成本的考虑,越来越多的知识服务机构在开展大数据服务时,开始偏向采用中低端硬件构成的大规模计算机集群,并在集群上搭建分布式计算平台以替代成本高昂的高端服务器,这种方案完全可以借鉴到图书馆大数据应用服务中。

各高校图书馆都配置有一定数量的中低端硬件设备,包括服务器和普通个人电脑等,可以基于已有设备构建分布式计算机集群并搭建云操作系统。当前,市场上云操作系统包括微软的Windows Server 2012系统,甲骨文的Solaris 11系统,以及华为Fusion Sphere系统等,这些由企业开发的云操作系统,具有使用方便,稳定性好的优点,但需要付费使用。开源项目Apache下的Hadoop因其免费和功能强大被许多互联网公司的争相采用,成为主流的分布式系统。Hadoop是运行于普通的服务器和计算机集群上的分布式存储和并行计算系统,集群中有一个主控节点(NameNode)用来控制和管理整个集群的正常运行:完成基于大量从节点(DataNode)的分布式存储和并行计算调度。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研究的主流平台。

为节约硬件资源和资金,充分利用图书馆现有的中低端硬件设备,在高校图书馆大数据应用模式框架中,支撑图书馆大数据应用的软硬件环境采用基于Hadoop大规模图计算的云平台及SQL,HBase(NoSQL)等分布式数据存储技术。