基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研......
2023-07-24
云计算、物联网和移动互联网等信息技术的飞速发展和广泛应用,产生了海量的结构化、半结构化和非结构化数据,这些在组成结构、类型格式和存在形态上各具特点的数据具有“种类多(Variety),流量大(Velocity),容量大(Volume)和价值高(Value)”的“4V”特征[1],信息技术的发展也由此正式进入大数据时代。近年来,伴随高校图书馆数字化进程的迅速推进,图书馆数据在一定程度上具备了大数据的“4V”特征:数据种类繁多;数据量日益庞大且增长迅速,数据服务的个性化和学科化趋势导致对海量数据的实时分析和潜在价值挖掘的需求也在快速增长等。这些特征给承载着知识的收集存储、分析开发与创新应用重任的高校图书馆及以文献资料分析为基础的图书馆数据服务工作带来了严峻挑战。针对各种不同类型的图书馆数据服务,开展图书馆大数据应用模式及其实证研究具有重要意义。
1.图书馆大数据应用模式和服务研究现状
(1)国外学者关注图书馆大数据应用模式和服务需求并讨论大数据应用技术问题。在图书馆大数据的数据服务方面,Sugimoto[2]从数据组织、存储、检索、管理等角度讨论图书馆的信息科学服务(Library and Information Science)在大数据时代面临的诸多挑战并提出应对计划;Rousseau R[3]指出图书馆数据服务在大数据环境下应着重关注用户数据挖掘、学科知识发现和数据社区构建及服务等方面;Auckland M[4]和Corral S[5]等讨论了大数据时代图书馆从业者的角色转型和从业者必备的数据服务技能问题。在大数据应用技术方面,Teets M[6]和Qiu J[7]等聚焦图书馆大数据应用落地问题,先后提出基于WorldCat数据库和基于HPC-ABDS(High Performance Computing Big Data Stack)的图书馆大数据应用框架;Huwe T K[8]总结近来大数据发展的趋势,认为当前新兴的且正在快速发展的内存计算(In-memory Computing)技术具有实时处理大规模数据和高效挖掘知识的双重优点,是图书情报领域未来支撑图书馆数据服务的重要技术。
(2)国内学者近年来也开始讨论高校图书馆大数据应用模式和技术问题。应用模式方面,樊伟红等[9]分析了大数据时代国内图书馆服务在应用技术、知识创新和硬件成本等方面所面临的巨大挑战,并提出对策指出未来对图书馆大数据挖掘和应用将在图书馆知识服务、用户行为分析、智能决策方面发挥重要作用;韩翠峰[10]从重视用户数据、增加数据分析服务和高效利用数据分析技术与工具三个不同角度探讨图书馆大数据服务的创新问题;王天泥[11]认为,知识咨询是大数据情景下图书馆未来咨询服务的新模式;马晓亭[12]提出一种采用多层次系统结构的图书馆大数据资源整合平台的技术框架。在应用技术方面,Chen M等[13]探讨了包括图书馆大数据的数据存储、数据挖掘以及个性化服务等具体技术,提出以Hadoop+MapReduce并行架构为主要技术的大数据应用方案。Chen C L P等[14]提出了数据存储、清洗与整合、分析和挖掘以及可视化与决策的图书馆大数据的应用流程及对应大数据平台和大数据软件系统实现技术。
国内外学者从多角度探讨了图书馆大数据分析应用面临的挑战,明确关注服务创新,提出应对策略,但是在有关图书馆大数据应用模式创新研究以及具体应用方法分析方面存在缺陷;发现并提出图书馆大数据应用和开发的计算成本高昂问题,但在如何基于高校图书馆当前有限硬件设备,构建既满足实时计算,又经济适用的大数据应用平台的相关解决方案方面,缺少系统而深入的研究。
2.大规模网络分析方法和内存计算技术
网络分析方法是当前图书情报领域研究的热点。该方法近年来广泛应用于信息检索、用户行为分析和信息计量学研究,对网络知识挖掘、网络信息行为以及知识管理领域的发展起到了重大推动作用。[15]网络分析方法可以与知识管理理论[16]密切结合起来,在知识管理理论中,将知识分为用文字、图表和数学公式等描述的“显性知识”和难以描述的“隐性知识”,可以通过构建“语义网”模型,以此为基础设计对应算法挖掘“显性知识”,构建“社会网络”模型分析用户个体行为和用户群体关系,并在用户群体之间实现“显性知识”和“隐性知识”共享和转移,从而辅助知识传播、知识创新和智能决策。
随着图书馆数据的急剧增加,网络规模可达到千万以上数量级别,海量数据的实时计算、分析挖掘和可视化成为图书馆大数据应用能否真正落地的关键问题。中国计算机学会大数据专家委员会早在2015年预测大数据发展趋势时曾经指出,既有的数据分析方法因计算速度低下等原因难以适应大规模分布式计算和实时性的要求,内存计算技术逐渐成为各行业大数据应用的重要技术。[17]近年来,开源组织Apache提出了Hadoop+Spark+GraphX大规模网络分析和计算框架[18],其优点是:
(1)性能优越。该框架中的Spark是内存计算技术,数据处理仅运行于计算机内存中,避免在硬盘和内存频繁交换数据的时间消耗。该框架能进行千万级别数据的实时计算和大规模网络分析和挖掘。
(2)开源免费。能在普通的PC机器上构建云计算环境,实现海量数据分布式存储和集群计算。该框架已经应用于淘宝网、新浪微博和网易等商业领域大数据计算和挖掘,在用户分析、个性化推送服务和智能决策等方面发挥重要作用。
综上所述,大规模网络分析一方面作为图书情报领域知识发现、知识共享和传播的重要研究方法,另一方面由于其与内存计算技术结合,在商业大数据领域应用非常成功。因此,在本研究中将大规模网络分析方法和内存计算技术作为沟通图书馆数据应用需求和大数据应用的首选方法和重要技术工具,有着内在的必然性。
3.图书馆大数据应用模式
(1)大数据应用模式概念。“应用模式”一词目前在学界没有确切定义,模式(Pattern)广泛应用于各领域,如商业模式、设计模式和管理模式等,其具体含义千差万别。在百度互动百科的词条(http://www.baike.com/wiki/模式)中,模式一般指“从生产或生活经验中经过抽象和升华提炼出来的核心知识体系,是解决某一类问题的方法论。”依据这一描述,将本书中的高校图书馆大数据应用模式粗略概括为解决图书馆大数据应用问题的方法和知识体系:针对大数据背景下,高校图书馆数据服务面临的挑战,基于相关理论和信息技术手段,提出解决问题的一系列方案,并进行理论总结,最终形成可复用的知识体系。
(2)图书馆大数据应用模式框架及所面临的挑战。一般可以遵循数据应用过程来构建图书馆大数据应用模式框架,数据应用过程包括数据收集与整合、数据处理和分析、数据服务和硬件资源组织等过程。
①海量数据的收集与整合子模式。主要包含图书馆馆藏资源(纸质资源、光盘资源、网络资源和数据库资源等)的结构化数据和来自于日常服务信息等非结构化数据,这些体量巨大、格式不同的数据需要整合成规范、统一的表示形式,构建具体数据模型以利于进一步分析。
②图书馆大数据处理和分析子模式。图书馆大数据信息量庞大且复杂多样,因此数据分析和挖掘工作具有重要意义。传统的数据挖掘方法难以满足包含关系型数据,非结构化的、半结构化数据的挖掘以及深度分析的诸多需求,需要具有高计算能力的计算平台支持并在此基础上构建新的分析模型、开发新的分析方法和应用新的分析工具。
③图书馆知识服务子模式。开展知识服务是高校图书馆服务的重要任务,需要综合利用包括馆藏资源和互联网、物联网资源等各类数据资源,对其中的知识搜寻、组织、分析、重组,并密切结合用户的具体需求和所处的软硬件环境,提供高效的知识应用和知识创新的支撑服务,如大数据环境下针对高校教学和科研的学科知识服务和面向高校师生的个性化推荐服务等。
④硬件资源组织子模式。随着图书馆数据的迅速增加,所需的数据存储及计算资源也随之增加,购买相应设备需要投入更多的资金。然而面对高校在图书馆计算设备和应用软件的经费投入有限的现实情况,如何在有限的设备上搭载高性能计算任务,必须寻求有效的解决方案。当前越来越多的知识服务机构在数据应用设备购置时,压缩购买高端服务器的费用,而逐步转向利用已有的中低端硬件构成的大规模计算机集群来满足应用需求,以降低知识服务成本。
有关高校图书馆大数据应用模式与实证研究的文章
基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研......
2023-07-24
特别是随着阅读终端的多样化和社交媒体的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源见表7.1。大数据挖掘作为知识发现、信息行为分析的重要研究方法,是图书馆数据展现数据智慧的关键技术之一。本节提出如图7.1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘作为沟通图书馆智慧服务需求和大数据应用的桥梁。......
2023-07-24
为验证本方案的可行性和推荐性能,实现推荐系统并开展实证研究。按此规则共收集到1万多组数据。针对不同的调和参数α的准确率和多样率的统计结果如图10.15所示。......
2023-07-24
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
所有的应用模式都是基于知识管理理论,并将知识管理过程中“知识生产、组织、构建、检索、发现、分享、应用和创新”的一系列过程凝练为“数据收集、整合与存储”“数据处理和分析”和“数据展现与服务”三个关键过程,并分别构建大数据应用子模式。表12.2图书馆大数据服务的对象、内容和大数据来源比较从表12.2的比较可以看出,在“数据收集、整合与存储”阶段,各类应用模式大都采用语义网和本体技术对大数据进行清洗和融合。......
2023-07-24
创新团队面临的问题包括:“信息过载”问题。期刊论文的标准格式和写作规范、专利和软件著作权的范例和模板以及结题报告的撰写规则等需要查阅大量的资料,在此基础上,创新团队需要将实践成果进行系统总结和理论提高后,才能形成有价值的学术文献。......
2023-07-24
“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。......
2023-07-24
[6][7][8]具体到图书情报领域,图书馆文献推荐的研究主要集中在图书馆信息系统中推荐方法的应用。蓝冬梅[20]结合高校图书馆借阅记录,通过预测用户对各类图书的借阅偏好实施图书推荐,实验表明推荐的准确率和多样性同时得到提升。随着文献服务水平的不断提高和大数据技术的完善,图书馆文献推荐方法研究和实证分析也需要与时俱进。以下在分析大数据下图书馆文献推荐需求的基础上,提出两种不同的文献推荐方案。......
2023-07-24
相关推荐