针对各种不同类型的图书馆数据服务,开展图书馆大数据应用模式及其实证研究具有重要意义。国内学者近年来也开始讨论高校图书馆大数据应用模式和技术问题。因此,在本研究中将大规模网络分析方法和内存计算技术作为沟通图书馆数据应用需求和大数据应用的首选方法和重要技术工具,有着内在的必然性。......
2023-07-24
实验采用如下数据:
(1)A高校图书馆馆藏图书数据库完整数据共1 227 724条;
(2)论文库由自行开发的爬虫软件从互联网获取,经过去重处理后共473432条,其中包括期刊论文(361247条)和硕博学位论文(112185条)两种类型。
两类数据均截至2016年12月31日。
首先是Spark关联计算,将馆藏图书数据库和论文数据库聚合,构建RDD关联三元组,然后转换为GraphX图计算,实现对关联结果排名并保存到数据库中,最后开发Web实时系统显示文献查询结果。
1.Spark关联计算
因为Spark RDD关联三元组数目庞大,计算耗时较长,因而采用分布式集群离线计算方式。两类关联模式中,“相似度计算”的计算复杂度估计:馆藏的一百多万条图书数据(数量级106)需要与论文数据(数量级105)实现“图书与图书”“论文与论文”“图书与论文”三种不同方式的文献相似度计算,每种类型都通过双重循环,两两计算相似度,计算总复杂度为O(106×106+106×105+105×105)=O(1012);通过“字符比较”成功匹配而聚合形成的三元组数目见表4.1。其中,“图书与图书”通过“中图法分类名”(也称为关联媒介)关联的三元组数目最大,达到14亿多条。因为每个“中图法分类名”下包括的文献非常多,这些文献都要建立关联,因而数量最多;同理,“论文与论文”通过“关键词”的关联也占整个关联数目的比例较大。这两类关联占三元组总数的比例近95%,共同构成“字符比较”关联的主体部分。可以看出,“图书与论文”在“作者”上的关联数目最小。但此类关联跨越不同的数据库,是图书到论文交叉查询的基础。
表4.1 “字符比较”关联三元组
2.Spark性能分析
将Spark与大数据平台MapReduce比较以评估计算性能。实验中所构建的分布式集群硬件配置:由16个节点PC机(型号:DELL Vostro 3667-R1838;单台配置:i5-6400/8 G内存/1000 GB硬盘)和连接分布式系统的交换机(1000 M,24个接口)构成。以“字符比较”关联作为计算任务在两类平台上分别运行。Spark和MapReduce的计算时间如图4.5所示。相比MapReduce,Spark优势非常明显:如对于输出20×109数量级的RDD三元组,Spark耗时约40分钟,而MapReduce需要近900分钟,约为20多倍。这是因为计算过程中Spark中间结果存储在内存中,提高了性能。
图4.5 Spark性能测试与比较
3.Web实时显示系统
如图4.6所示为开发的Web原型系统界面的截图,显示为用户所查找文献的TOP 10列表,虚线部分是为了方便说明,作者手动添加上去的标记。标记①是用户浏览初景利的著作《图书馆发展变革与服务转型》[22]时,点击该图书链接,系统自动查找与该图书密切相关的文献。标记②是图书查找结果,因为该图书数据库中没有初景利撰写的其他图书,系统依据文献资源的关联关系排名,自动推送与主题密切相关的图书;标记③是初景利撰写的“高相关度”论文列表。
图4.6 Web实时显示系统
有关高校图书馆大数据应用模式与实证研究的文章
针对各种不同类型的图书馆数据服务,开展图书馆大数据应用模式及其实证研究具有重要意义。国内学者近年来也开始讨论高校图书馆大数据应用模式和技术问题。因此,在本研究中将大规模网络分析方法和内存计算技术作为沟通图书馆数据应用需求和大数据应用的首选方法和重要技术工具,有着内在的必然性。......
2023-07-24
①应用Spark函数对馆藏书目库和论文库中的数据进行处理,共构成5组二元组,保存为RDD,见表10.5。图10.6基于“作者”的图书与论文关联三元组基于大规模图计算的排名技术。通过以下的API存取图书、论文等文献,以及完成反馈的动作。图10.8数据实时服务系统查询及显示技术。......
2023-07-24
采用对应态热导率模型、Chung法和Stiel-Thodos模型,对二元混合物气体的热导率进行了预测,预测结果与Christensen[27]测得的甲烷-氮气、甲烷-二氧化碳实验数据进行了对比,见表1-18~表1-20。由表中的预测结果可知,对应态热导率模型的平均绝对误差为5.03%,Chung法,Stiel-Thodos模型的平均绝对误差分别为4.93%和7.57%。而且对应态热导率模型的适用温度、压力范围广,可以对天然气的气态、液态热导率进行计算,精度较高,优点较为明显。......
2023-06-24
“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。......
2023-07-24
其中“科研用户身份信息表”描述各类科研用户实名认证信息;“科研用户访问电子资源日志表”描述科研用户访问电子资源的个性化行为,存放清洗后的用户日志,用于“内容级/用户级”的分析和挖掘;“电子资源访问日志汇总表”来源于各数据库商的统计数据,存储融合和集成后的宏观统计信息。......
2023-07-24
图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。......
2023-07-24
构建用户个性化模型、实现个性化推荐,缓解“信息过载”。根据以上分析,本研究拟基于本体和关联数据技术,构建用户行为模型,通过分析显性用户兴趣和隐性用户需求,提供大数据情景下的图书馆个性化服务。......
2023-07-24
以每千克体重3ml的1%戊巴比妥钠溶液,从远离耳根部位的耳缘静脉中缓慢注射,麻醉家兔。图2-4-7 呼吸运动的调节实验框图观察和记录正常麻醉状态下的呼吸波。再快速切断另一侧的迷走神经,观察和记录呼吸波的变化,同样观察一段时间,看这种呼吸运动的变化是否能恢复。呼吸换能器的换能装置必须紧贴呼吸运动最明显的胸廓部位。分析家兔吸入高浓度二氧化碳、增大无效腔和切断迷走神经分别引起呼吸运动变化的原因。......
2023-11-09
相关推荐