本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
国内外学者对当前图书馆大数据应用进行了初步探讨,取得了一定的成果,但是多数文献偏重于概述方法和解析概念,在解决高校图书馆服务面临的学科知识服务和个性化服务问题方面,缺乏有效的理论和技术视角的应对方案。究其原因,高校图书馆大数据应用正处于起步阶段,数据收集整合、数据分析和知识服务方法有待发展,相关技术有待突破;另外,高校图书馆数据量激增,海量存储的急切需求和计算设备性能的急待提高与资金投入受限也存在尖锐的矛盾。上述因素使得当前高校图书馆大数据应用陷入困境,阻碍了高校图书馆大数据服务的开展。为了针对性提出应对方案,需要对当前所处的困境进行深入分析,主要从数据收集、数据分析、知识服务和硬件设备现状四个方面具体探讨。
(1)数据收集是大数据应用的起点,数据整合和存储是大数据应用的基础。当前,由于受到各种因素制约,在知识服务领域,相关企业数据库对大众开放程度较低,“信息孤岛”随处可见[4],数据的收集特别是高质量数据的完整获取存在很大困难。对于中国知网、万方数据库等知名的文献资源数据库,一般的高校图书馆即使在付出巨额的使用费后,购买的仅是检索和文献下载权限,而无法获取可以用于深入研究的完整数据库。由于不同数据库之间的关联程度迥异,不同类型的异构数据的存储方式和数据格式也大相径庭,如果仅是简单地堆砌在一起,即使采取传统的数据挖掘技术,也难以进行有效的知识发现,得到有价值的结果,给图书馆大数据的整合带来困扰。另外,整合后的海量数据如何恰当存储和高速访问也挑战传统的存储方式。
(2)大数据实时处理和高效分析是图书馆知识服务的前提,也是图书馆大数据应用落地的关键。图书馆大数据信息量大且类型多样,数据分析和数据挖掘至关重要。在大数据环境下,传统的数据挖掘方法难以满足对关系型数据,非结构化的、半结构化的数据进行挖掘以及开展深度分析的需求,这需要高性能计算设备和软件平台的支撑以提高处理速度、开发合适的数据挖掘算法以高效进行知识挖掘和知识发现。当前,国内相关领域的技术发展很不平衡,知名互联网企业如阿里巴巴和腾讯等构建了上万节点的大数据计算集群和软件平台,并成功开展企业大数据应用和服务,但是由于企业之间存在竞争等因素的作用,大数据的应用及开发技术的扩散和共享渠道不畅,技术优势的企业积极性不高,对开源社区的贡献不足,图书情报领域的研究者不易获取软件开发相关的技术资料,造成了高校图书馆大数据分析技术上的壁垒。
(3)知识展现和知识服务是图书馆大数据应用的落脚点。脉络清晰的知识展现手段能够促使知识发现的过程和知识之间的关系更容易被用户理解,有利于用户快速把握所获取的知识。在数据开放和知识共享的大趋势下,图书馆需要依据用户需求,通过对知识搜索、组织、分析、重组等方式为用户提供知识服务,以支持知识应用和知识创新。当前针对高校科研和教学的学科知识服务和面向高校师生的个性化推荐服务是高校图书馆知识服务的两个主要任务,但是相关研究仍然缺乏系统的理论分析和有效的技术支持手段。
(4)有限的计算设备和资金投入也给图书馆大数据服务带来了挑战。图书馆数据量迅速增加,数据存储及计算规模也随之急剧增大,因而服务器硬件设备和软件设施(如软件分析平台构建和相关应用软件的购置和维护等)需要大量的资金投入,但是普通高校图书馆每年用于此项的经费有限,必须寻求有效解决方案。
从以上分析可以看出,当前高校图书馆大数据应用和服务在基础理论支撑、技术衔接和资金投入均存在不足,图书馆大数据应用模式不能简单套用传统的模式,分析方法和技术也不能采用传统的数据分析框架和数据分析方法。
下列章节以知识管理理论和大规模网络分析理论为支撑理论,通过元数据模型的构建,大规模网络分析方法的应用,以及用户行为分析和挖掘,提出一种基于大规模网络分析方法的图书馆大数据一般应用模式,并阐述具体实现方法和主要技术,力图在一定程度上破解当前图书馆大数据服务面临的困境。
有关高校图书馆大数据应用模式与实证研究的文章
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。......
2023-07-24
特别是随着阅读终端的多样化和社交媒体的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源见表7.1。大数据挖掘作为知识发现、信息行为分析的重要研究方法,是图书馆数据展现数据智慧的关键技术之一。本节提出如图7.1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘作为沟通图书馆智慧服务需求和大数据应用的桥梁。......
2023-07-24
学术界和工业界对知识管理理论进行了深入而广泛的研究,然而迄今为止对知识管理涉及的具体内容及一般过程尚未形成统一认识。这里重点介绍图书情报领域专家的相关表述。其管理过程大致包括知识生产、组织、构建、检索、发现、分享、应用和创新等阶段。在知识经济的背景下,知识的发现、利用和创新是贯穿于高校图书馆各项业务工作的主线,知识管理理论也成为大数据时代图书馆大数据应用和服务的主要支撑理论。......
2023-07-24
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2023-07-24
国内外专家学者对图书馆电子资源使用统计进行了多角度的研究和应用尝试。国内学者的研究主要集中在应用领域。钟克吟[13]利用ASP技术开发图书馆电子资源读者访问流量统计分析系统来提高数字资源服务效益;王政军[14]提出基于旁路监听技术的图书馆数字资源绩效分析的设计思路和方案,通过记录用户对电子资源的访问下载情况而实施资源访问监控;周欣等[15]提出基于用户日志进行数据采集和数据挖掘的方法,构建用户行为分析系统模型。......
2023-07-24
大数据环境下个性化服务的研究引起学界重视。大数据技术的迅速发展以及图书馆个性化服务要求的不断提高,催生了大数据环境下个性化服务的研究,尤其是在关联数据技术与个性化服务结合方面取得了积极进展。以下结合大数据环境下个性化服务特征,讨论用户行为模型的构建策略。......
2023-07-24
Spark框架的软件栈如图2.1所示。Spark SQL是Spark用来操作结构化数据的程序包,支持多种数据源,主要用于查询数据。Spark Streaming的功能是对实时数据进行流式计算,如生产过程中的网页服务器日志或是网络服务中用户提交状态更新的消息队列等,Spark提供了该类操作的API接口,并与Spark Core中的RDD API接口相对应,这使得编程人员能方便操作内存、硬盘数据和实时数据流。......
2023-07-24
相关推荐