首页 理论教育图书馆电子资源采集模式研究

图书馆电子资源采集模式研究

【摘要】:电子资源的采集模式包括两种方式,即由图书馆自主采集科研用户的使用日志和数据库商统一提供的电子资源使用统计报告,以满足不同用户的需求。除了校内用户访问本地电子资源是通过IP授权方式以外,其他各类访问都是采用实名认证的方式。图8.2科研用户基于实名认证和IP授权两种方式访问电子资源采集技术主要应用旁路镜像监听方法,如图8.3所示,利用校园网出口或校园网内交换机端口的镜像功能,将采集设备以旁路方式连接加以采集。

电子资源的采集模式包括两种方式,即由图书馆自主采集科研用户的使用日志和数据库商统一提供的电子资源使用统计报告,以满足不同用户的需求。

1.基于实名认证和IP绑定并结合旁路镜像监听采集用户行为日志

具体采集方法如图8.2所示,电子资源包括远程和本地两种形式,而用户类型有校内、校外和手机用户三种。除了校内用户访问本地电子资源是通过IP授权方式以外,其他各类访问都是采用实名认证的方式。对于实名认证方式,可以针对科研用户的实名账号从校园网络出口(用于远程电子资源)和校内交换机(用于本地资源)的网络流量中精准抓取用户访问日志[16];对于IP授权方式,需要将科研用户的账号和IP映射后绑定,以获取科研用户个体的日志数据。

图8.2 科研用户基于实名认证和IP授权两种方式访问电子资源

采集技术主要应用旁路镜像监听方法,如图8.3所示,利用校园网出口或校园网内交换机端口的镜像功能,将采集设备以旁路方式连接加以采集。依据相关采集参数(数据库名、资源URL和IP地址、科研用户账号等)过滤网络镜像数据流,将结果传输到数据统计服务器上。这种旁路方式的优点是在不改变校园网的原始架构和不影响校园网络速度和性能的基础上,能得到真实有效的用户日志数据。由于各数据库的多源、异构以及采集过程中难以避免的错误,这些日志数据一定程度上含有“噪音”,需要进行清洗,即使用相关工具(如Extraction Transformation and Loading,抽取、转化和装载工具)对数据进行过滤和检查,并对数据去重、纠错和合并。[17]

图8.3 旁路镜像方式数据采集方案的实现原理

2.基于Counter规范由各数据库商统一提供远程电子资源使用的统计报告

为帮助图书馆获取可靠、一致和兼容的电子资源统计标准,Counter项目组自2002年以来发布了《Counter期刊和数据库实施规范》,目前已经升级到第四版(Counter R4),该规范明确定义了包含在线期刊、数据库、在线图书及多媒体等电子资源使用的统计规范,例如规定统计的关键指标应包含“登录次数、检索次数、全文下载量和拒绝访问量”等[18]。Counter规范目前获得了大部分国际著名数据库商的支持,图书馆在使用这些外文的数据库时,可以通过标准的收割接口SUSHI(Standardized Usage Statistics Harvesting Initiative)获取统计报告。

Counter规范的优缺点分析。Counter优点在于:采用统一的指标和规范提供面向宏观层面的统计报告,如某用户(购买该资源的图书馆所在高校的所有用户集合)在某一时间段访问该数据库的请求量、全文下载(被拒)量等,有利于科研团体或管理部门掌握宏观统计数据。Counter缺点在于:

(1)只能获取各数据库商提供的统计报告,而对各图书馆的馆藏资源和免费资源的使用情况无能为力。

(2)Counter报告只能从宏观上给出所有用户访问该数据商资源的统计数据,无法提交面向科研个体细致的“内容级/用户级”报告,从而不能满足用户个性化的要求。

(3)国内的数据库商基本不支持Counter计量标准。[19]

由于采用“实名认证”和“IP绑定”方法,图书馆能够方便地采集包含国内外各种类型资源以及面向用户个体的用户日志,能够弥补Counter规范的上述缺点,因此将上述两种方法结合起来,即以图书馆自行采集数据服务于科研用户,以数据库商的统计报告服务于科研团体的共享需要和管理部门的宏观决策,从而全面满足各级科研用户的需求。