国内外专家学者对图书馆电子资源使用统计进行了多角度的研究和应用尝试。国内学者的研究主要集中在应用领域。钟克吟[13]利用ASP技术开发图书馆电子资源读者访问流量统计分析系统来提高数字资源服务效益;王政军[14]提出基于旁路监听技术的图书馆数字资源绩效分析的设计思路和方案,通过记录用户对电子资源的访问下载情况而实施资源访问监控;周欣等[15]提出基于用户日志进行数据采集和数据挖掘的方法,构建用户行为分析系统模型。......
2023-07-24
为方便对用户日志挖掘、分析和统计,需要设计结构化的数据表格,见表8.1。其中“科研用户身份信息表”描述各类科研用户实名认证信息;“科研用户访问电子资源日志表”描述科研用户访问电子资源的个性化行为,存放清洗后的用户日志,用于“内容级/用户级”的分析和挖掘;“电子资源访问日志汇总表”来源于各数据库商的统计数据,存储融合和集成后的宏观统计信息。
表8.1 电子资源使用数据表
2.用户使用行为日志数据的统计和分析
对上述表格以设定的键值关联后的海量日志数据,应用Hadoop云平台和MapReduce分析框架进行统计分析,形成“内容级/用户级”的分析结果。主要包括:用户单位时间内(按年、月、日或自定义时间)访问的数据库(电子资源)的名称,自定义时间段内访问电子资源的排名;各电子资源的访问次数排名,访问频度分析,数据全文下载量(被拒率);检索词类型,检索词学科分布情况,检索的命中率;按用户部门、职称、身份类型等条件的分组用户群使用电子资源的统计数据等。通过聚类算法和关联规则算法(如Apriori和FP-Tree算法等)发现潜在的科研团队群体、新的科研热点以及某一学科的科研主题的演化路径和规律等。
3.来自于数据商的电子资源访问日志统计和分析
应用SUSHI接口从各数据商收集到的Counter R4规范的统计数据一般以XML文件和报表的形式存在,由于数据商来源不同,这些数据需要基于XML和元数据技术融合及汇总,以服务于科研团体和管理部门。主要表现在统计电子资源的利用方面,如各数据库单位时间内(或自定义时间)被访问次数,被下载全文的篇数,按数据库利用率排序(检索次数、下载全文篇数)以及购置经费排名等,以图、表等数据可视化形式展现。
有关高校图书馆大数据应用模式与实证研究的文章
国内外专家学者对图书馆电子资源使用统计进行了多角度的研究和应用尝试。国内学者的研究主要集中在应用领域。钟克吟[13]利用ASP技术开发图书馆电子资源读者访问流量统计分析系统来提高数字资源服务效益;王政军[14]提出基于旁路监听技术的图书馆数字资源绩效分析的设计思路和方案,通过记录用户对电子资源的访问下载情况而实施资源访问监控;周欣等[15]提出基于用户日志进行数据采集和数据挖掘的方法,构建用户行为分析系统模型。......
2023-07-24
水资源基础评价是指水资源评价活动中的基础性工作,包括对评价范围内的水文、水文气象、水文地质等基本资料的统计、分析、系统整理、特征、水资源分区、图表化等工作。水资源基础评价活动只能在具有一定条件的情况下进行。在进行水资源基础评价工作前,应对所评价区域范围的气候特点有一个大致的了解,其中最主要的就是以干旱和湿润为标准进行的气候分区。联合国水会议号召各国进行的就是国家级水平的水资源评价。......
2023-11-05
电子资源的采集模式包括两种方式,即由图书馆自主采集科研用户的使用日志和数据库商统一提供的电子资源使用统计报告,以满足不同用户的需求。除了校内用户访问本地电子资源是通过IP授权方式以外,其他各类访问都是采用实名认证的方式。图8.2科研用户基于实名认证和IP授权两种方式访问电子资源采集技术主要应用旁路镜像监听方法,如图8.3所示,利用校园网出口或校园网内交换机端口的镜像功能,将采集设备以旁路方式连接加以采集。......
2023-07-24
“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。......
2023-07-24
图书馆大数据具体应用模式的比较和分析。一方面,由于图书馆大数据应用服务的对象不同,导致服务的目的、要求、数据来源、数据特点有很大差异,所提出的高校图书馆大数据各种应用模式也有重大区别;另一方面,各种模式也存在诸多共同点,因此需要对其进行比较和分析。......
2023-07-24
本方案是基于内容的文献推荐方法,当用户浏览图书馆信息系统,点击感兴趣的文献链接时,系统查找与用户当前所点击的文献特征高相似度的文献,经过排名后实施推荐。本方案中用户兴趣建模和文献数据建模均采用“混合关联”方案,如图10.13所示。抽取图书数据库中的“书名”和“内容简介”,与论文数据库中的“篇名”和“中文摘要”等元数据实现关联。Spark库中有专用函数支持“相似性度量”关联的实现。......
2023-07-24
关键词:自建数据库 特色数据库 特色资源分类号:G250.74目前高校图书馆建设馆藏数字资源的方法主要有三种,一是购买成熟的大型商业性权威数据库;二是自组的网络信息资源;三是根据本校的学科专业特色自建专题特色数据库。在建设特色数据库时,应把握好以下几个原则。图书馆自行设计程序建立数据库选择哪一种程序语言取决于技术人员本身的编程基础。......
2023-11-30
两类数据均截至2016年12月31日。首先是Spark关联计算,将馆藏图书数据库和论文数据库聚合,构建RDD关联三元组,然后转换为GraphX图计算,实现对关联结果排名并保存到数据库中,最后开发Web实时系统显示文献查询结果。其中,“图书与图书”通过“中图法分类名”关联的三元组数目最大,达到14亿多条。这两类关联占三元组总数的比例近95%,共同构成“字符比较”关联的主体部分。这是因为计算过程中Spark中间结果存储在内存中,提高了性能。......
2023-07-24
相关推荐