基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研......
2025-09-29
电子资源的采集模式包括两种方式,即由图书馆自主采集科研用户的使用日志和数据库商统一提供的电子资源使用统计报告,以满足不同用户的需求。
1.基于实名认证和IP绑定并结合旁路镜像监听采集用户行为日志
具体采集方法如图8.2所示,电子资源包括远程和本地两种形式,而用户类型有校内、校外和手机用户三种。除了校内用户访问本地电子资源是通过IP授权方式以外,其他各类访问都是采用实名认证的方式。对于实名认证方式,可以针对科研用户的实名账号从校园网络出口(用于远程电子资源)和校内交换机(用于本地资源)的网络流量中精准抓取用户访问日志[16];对于IP授权方式,需要将科研用户的账号和IP映射后绑定,以获取科研用户个体的日志数据。
图8.2 科研用户基于实名认证和IP授权两种方式访问电子资源
采集技术主要应用旁路镜像监听方法,如图8.3所示,利用校园网出口或校园网内交换机端口的镜像功能,将采集设备以旁路方式连接加以采集。依据相关采集参数(数据库名、资源URL和IP地址、科研用户账号等)过滤网络镜像数据流,将结果传输到数据统计服务器上。这种旁路方式的优点是在不改变校园网的原始架构和不影响校园网络速度和性能的基础上,能得到真实有效的用户日志数据。由于各数据库的多源、异构以及采集过程中难以避免的错误,这些日志数据一定程度上含有“噪音”,需要进行清洗,即使用相关工具(如Extraction Transformation and Loading,抽取、转化和装载工具)对数据进行过滤和检查,并对数据去重、纠错和合并。[17]
图8.3 旁路镜像方式数据采集方案的实现原理(https://www.chuimin.cn)
2.基于Counter规范由各数据库商统一提供远程电子资源使用的统计报告
为帮助图书馆获取可靠、一致和兼容的电子资源统计标准,Counter项目组自2025年以来发布了《Counter期刊和数据库实施规范》,目前已经升级到第四版(Counter R4),该规范明确定义了包含在线期刊、数据库、在线图书及多媒体等电子资源使用的统计规范,例如规定统计的关键指标应包含“登录次数、检索次数、全文下载量和拒绝访问量”等[18]。Counter规范目前获得了大部分国际著名数据库商的支持,图书馆在使用这些外文的数据库时,可以通过标准的收割接口SUSHI(Standardized Usage Statistics Harvesting Initiative)获取统计报告。
Counter规范的优缺点分析。Counter优点在于:采用统一的指标和规范提供面向宏观层面的统计报告,如某用户(购买该资源的图书馆所在高校的所有用户集合)在某一时间段访问该数据库的请求量、全文下载(被拒)量等,有利于科研团体或管理部门掌握宏观统计数据。Counter缺点在于:
(1)只能获取各数据库商提供的统计报告,而对各图书馆的馆藏资源和免费资源的使用情况无能为力。
(2)Counter报告只能从宏观上给出所有用户访问该数据商资源的统计数据,无法提交面向科研个体细致的“内容级/用户级”报告,从而不能满足用户个性化的要求。
(3)国内的数据库商基本不支持Counter计量标准。[19]
由于采用“实名认证”和“IP绑定”方法,图书馆能够方便地采集包含国内外各种类型资源以及面向用户个体的用户日志,能够弥补Counter规范的上述缺点,因此将上述两种方法结合起来,即以图书馆自行采集数据服务于科研用户,以数据库商的统计报告服务于科研团体的共享需要和管理部门的宏观决策,从而全面满足各级科研用户的需求。
相关文章
基于大规模网络分析方法构建图书馆大数据应用模式,应用模式框架如图3.1所示。框架图包括高校图书馆大数据应用模式和支撑理论,实现方法,支撑技术以及云计算支撑环境四个部分。图3.1高校图书馆大数据应用模式框架结合用户需求,数据整合需要基于上述数据库对不同类型的数据进行融合并深度加工。Hadoop的软件开源特性能极大降低大数据应用成本,并迅速成为工业界和学界开展大数据应用研......
2025-09-29
大数据环境下个性化服务的研究引起学界重视。大数据技术的迅速发展以及图书馆个性化服务要求的不断提高,催生了大数据环境下个性化服务的研究,尤其是在关联数据技术与个性化服务结合方面取得了积极进展。以下结合大数据环境下个性化服务特征,讨论用户行为模型的构建策略。......
2025-09-29
特别是随着阅读终端的多样化和社交媒体的广泛使用,形成了全方位、立体化的图书馆大数据。图书馆可用于满足智慧服务核心需求的重要大数据资源见表7.1。大数据挖掘作为知识发现、信息行为分析的重要研究方法,是图书馆数据展现数据智慧的关键技术之一。本节提出如图7.1所示的基于大数据挖掘的图书馆智慧服务模型,将大数据挖掘作为沟通图书馆智慧服务需求和大数据应用的桥梁。......
2025-09-29
应用数据挖掘技术有助于解决高校图书馆大数据应用中的知识迷航和信息过载问题。李艳等[13]从宏观上研究了高校图书馆大数据挖掘与决策分析体系,设计了基于高校图书馆特点的体系架构模型与业务分析流程,并探讨该体系架构在个性化服务中的应用。Yi C等[14]提出将数据挖掘算法应用到高校图书馆大数据个性化推送服务,着重讨论了关联规则算法和聚类算法的应用。......
2025-09-29
图书馆大数据应用必须密切结合图书馆大数据服务的需求,针对性地提出应用模式和解决方案,以促进图书馆大数据服务的真正落地。本书利用语义网这一工具和技术,融合语义网最新研究成果,提出一种基于语义网的学科知识服务模式。因此本书提出面向科研的高校图书馆电子资源使用统计模式。......
2025-09-29
图4.3论文数据库和图书数据库本体模型和聚合元数据关联。设有两篇论文的题名分别为:论文A:大数据时代数字图书馆面临的机遇和挑战论文B:大数据时代下图书馆的挑战及其应对策略按以下步骤计算它们的相似程度。......
2025-09-29
利用大数据挖掘技术来优化算法,可进一步提高各种个性化服务质量,提升高校师生及相关工作人员的满意度。一方面,可以利用Mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用Mahout中已实现的相关算法来实现个性化服务。......
2025-09-29
在大数据时代,个性化推荐、检索和推送是高校图书馆的三种重要的个性化服务方式,它们之间有联系,也有区别。大数据环境下高校数字图书馆的高级检索应用也需要个性化,进一步提高检索结果的精准性和检索结果排序的合理性。推送系统能充分体现高校数字图书馆以用户为中心的管理理念,促进师生更积极地借阅图书,激发创新热情。......
2025-09-29
相关推荐