首页 理论教育高校图书馆电子资源数据分析和统计

高校图书馆电子资源数据分析和统计

【摘要】:其中“科研用户身份信息表”描述各类科研用户实名认证信息;“科研用户访问电子资源日志表”描述科研用户访问电子资源的个性化行为,存放清洗后的用户日志,用于“内容级/用户级”的分析和挖掘;“电子资源访问日志汇总表”来源于各数据库商的统计数据,存储融合和集成后的宏观统计信息。

1.设计关键数据表

为方便对用户日志挖掘、分析和统计,需要设计结构化的数据表格,见表8.1。其中“科研用户身份信息表”描述各类科研用户实名认证信息;“科研用户访问电子资源日志表”描述科研用户访问电子资源的个性化行为,存放清洗后的用户日志,用于“内容级/用户级”的分析和挖掘;“电子资源访问日志汇总表”来源于各数据库商的统计数据,存储融合和集成后的宏观统计信息。

表8.1 电子资源使用数据表

2.用户使用行为日志数据的统计和分析

对上述表格以设定的键值关联后的海量日志数据,应用Hadoop云平台和MapReduce分析框架进行统计分析,形成“内容级/用户级”的分析结果。主要包括:用户单位时间内(按年、月、日或自定义时间)访问的数据库(电子资源)的名称,自定义时间段内访问电子资源的排名;各电子资源的访问次数排名,访问频度分析,数据全文下载量(被拒率);检索词类型,检索词学科分布情况,检索的命中率;按用户部门、职称、身份类型等条件的分组用户群使用电子资源的统计数据等。通过聚类算法和关联规则算法(如Apriori和FP-Tree算法等)发现潜在的科研团队群体、新的科研热点以及某一学科的科研主题的演化路径和规律等。

3.来自于数据商的电子资源访问日志统计和分析

应用SUSHI接口从各数据商收集到的Counter R4规范的统计数据一般以XML文件和报表的形式存在,由于数据商来源不同,这些数据需要基于XML和元数据技术融合及汇总,以服务于科研团体和管理部门。主要表现在统计电子资源的利用方面,如各数据库单位时间内(或自定义时间)被访问次数,被下载全文的篇数,按数据库利用率排序(检索次数、下载全文篇数)以及购置经费排名等,以图、表等数据可视化形式展现。