特别是随着阅读终端的多样化和社交媒体的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源见表7.1。大数据挖掘作为知识发现、信息行为分析的重要研究方法,是图书馆数据展现数据智慧的关键技术之一。本节提出如图7.1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘作为沟通图书馆智慧服务需求和大数据应用的桥梁。......
2023-07-24
基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。
1.数据收集、整合和存储模式
图书馆馆藏资源的结构化数据以及由日常服务产生的半结构化和非结构化数据等,可以手工录入或通过软件平台的相关接口存入数据库;对于知名的文献数据库,高校图书馆可以采取签约合作的方式获取数据库使用和研究权限。另外,用户可以针对本校特色和优势学科,利用网络数据自动抓取工具获取感兴趣的数据资源,自己构建该学科的文献数据库,完成数据的收集。
图3.1 高校图书馆大数据应用模式框架
结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。一般而言,在大数据的4个特征中,数据的多样性是更为本质的特征,对不同类型数据资源的选择和恰当整合非常重要,即整合什么和如何整合的问题。从参与整合的资源角度来看,在特定需求的应用研究中,要着重考虑,整合哪些类型的数据库。一般可选择相关性较高的数据资源,同时注意这些数据存在大量冗余,需要有效清洗,形成具有一定相关性、丰富多样性的高质量图书馆大数据;从整合和存储的方法来看,这些格式不同的数据需要构建相应的数据模型,形成规范、统一的表示格式,存储于云平台上的分布式数据库,并能方便地通过网络实现快速查询和检索。
在高校图书馆大数据应用模式框架中,恰当选择包括有本单位学科特色数据库在内的多种类型的相关数据库,对不同格式数据(电子资源、数据日志、科研数据以及媒体数据等)进行元数据统一建模,经过数据分类和清洗,融合成格式一致、结构清晰和扩展性好的基础数据;在技术实施方面,基于Hadoop云平台上SQL和HBase(NoSQL)等数据库,采用ETL,即数据抽取(Extract)、转换(Transform)、加载(Load)技术整合处理后,进行分布式存储并检索。[5]
2.数据处理和分析模式
图书馆大数据分析模式主要包括数据分析和数据挖掘方法的选取和应用。数据分析一般基于文件形式或者单个数据库的方式组织,有明确的分析目标;数据挖掘则是指在没有明确假设的前提下去挖掘信息、发现知识,建立在数据仓库或是分布式存储的数据库基础上。由于数据体量大和类型众多,一方面,需要具有高计算能力平台的支持以提高大数据处理速度,实时输出分析结果;另一方面,由于图书馆大数据应用的主要任务是知识发现,需要结合知识管理理论,采用适合形式化表述知识的工具(如知识本体),以及开发分析模型和相适用的数据挖掘算法进行分析,得出有较高价值的结果。
在高校图书馆大数据应用模式框架中,以语义网方法分析学科数据为例,分析不同用户检索浏览或借阅等相关数据特征,结合学科知识本体和学科数据库,以学科术语或概念等为图节点,相关联系为图形中的边,依据不同需求构建各类大规模语义网分析和预测模型,应用机器学习等算法,挖掘不同学科、不同时期的用户感兴趣主题等显性知识,分析演化规律和发展趋势;以社会网络分析方法为例,依据用户的借阅和浏览信息、用户特长等基础数据,将用户相关属性抽象成图节点,属性之间的联系为边,构建大规模社会网络分析模型,挖掘显性和隐性知识,发现网络中的社区、专家或关键人物,研究隐性知识的转移和共享模式;在技术上可采用大规模图数据挖掘技术以及Matlab、NetMiner和SPSS等工具辅助分析。
3.知识展现与服务模式
知识展现和服务模式一般可采用可视化技术,以构建知识地图的方式呈现知识发展的变化趋势。高校图书馆学科服务是高校图书馆生存与发展的立足点,其水平的高低是衡量高校图书馆服务质量的重要指标[6],因此高校图书馆学科服务应紧紧围绕教学和科研需求,由同时具备专业背景和熟悉图书管理知识的图书馆专业人员(学科馆员),通过深度嵌入教学和学科研究领域,采用数据挖掘等方法获取专业领域知识,并以清晰明了的方式展现给教学和科研人员,重点支持知识应用和知识创新。个性化服务也是一种重要服务类型,需要针对用户的行为和习惯,以用户的需求为主导,对不同的用户采取相应的服务策略。具体实现技术包括个性化信息检索、个性化信息推荐等。
在高校图书馆大数据应用模式框架中,基于数据处理和分析的结果,以用户需求为指引,构建网络可视化模型,应用可视化算法和工具进行热点主题可视化分析,引文网络和作者合著关系可视化分析,生成表达学科、领域、专业、文献、著者之间关系的知识地图,显示相关知识领域的发展和演化趋势;构建用户分析模型,分析用户兴趣,准确定位用户需求,提供个性化信息推送服务。在技术实施上采用包括Grid Layout,force-directed等网络可视化算法以及Pajek,citeSpace等网络可视化工具。
4.基于Hadoop的大规模图计算的云平台
采用Hadoop大规模图计算的云平台以破解有限的计算设备和资金投入带来的挑战。近年来,处于节约计算成本的考虑,越来越多的知识服务机构在开展大数据服务时,开始偏向采用中低端硬件构成的大规模计算机集群,并在集群上搭建分布式计算平台以替代成本高昂的高端服务器,这种方案完全可以借鉴到图书馆大数据应用服务中。
各高校图书馆都配置有一定数量的中低端硬件设备,包括服务器和普通个人电脑等,可以基于已有设备构建分布式计算机集群并搭建云操作系统。当前,市场上云操作系统包括微软的Windows Server 2012系统,甲骨文的Solaris 11系统,以及华为Fusion Sphere系统等,这些由企业开发的云操作系统,具有使用方便,稳定性好的优点,但需要付费使用。开源项目Apache下的Hadoop因其免费和功能强大被许多互联网公司的争相采用,成为主流的分布式系统。Hadoop是运行于普通的服务器和计算机集群上的分布式存储和并行计算系统,集群中有一个主控节点(NameNode)用来控制和管理整个集群的正常运行:完成基于大量从节点(DataNode)的分布式存储和并行计算调度。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研究的主流平台。
为节约硬件资源和资金,充分利用图书馆现有的中低端硬件设备,在高校图书馆大数据应用模式框架中,支撑图书馆大数据应用的软硬件环境采用基于Hadoop大规模图计算的云平台及SQL,HBase(NoSQL)等分布式数据存储技术。
有关高校图书馆大数据应用模式与实证研究的文章
特别是随着阅读终端的多样化和社交媒体的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源见表7.1。大数据挖掘作为知识发现、信息行为分析的重要研究方法,是图书馆数据展现数据智慧的关键技术之一。本节提出如图7.1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘作为沟通图书馆智慧服务需求和大数据应用的桥梁。......
2023-07-24
为验证本方案的可行性和推荐性能,实现推荐系统并开展实证研究。按此规则共收集到1万多组数据。针对不同的调和参数α的准确率和多样率的统计结果如图10.15所示。......
2023-07-24
所有的应用模式都是基于知识管理理论,并将知识管理过程中“知识生产、组织、构建、检索、发现、分享、应用和创新”的一系列过程凝练为“数据收集、整合与存储”“数据处理和分析”和“数据展现与服务”三个关键过程,并分别构建大数据应用子模式。表12.2图书馆大数据服务的对象、内容和大数据来源比较从表12.2的比较可以看出,在“数据收集、整合与存储”阶段,各类应用模式大都采用语义网和本体技术对大数据进行清洗和融合。......
2023-07-24
针对各种不同类型的图书馆数据服务,开展图书馆大数据应用模式及其实证研究具有重要意义。国内学者近年来也开始讨论高校图书馆大数据应用模式和技术问题。因此,在本研究中将大规模网络分析方法和内存计算技术作为沟通图书馆数据应用需求和大数据应用的首选方法和重要技术工具,有着内在的必然性。......
2023-07-24
“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。......
2023-07-24
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2023-07-24
图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。......
2023-07-24
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2023-07-24
相关推荐