首页 理论教育高校图书馆大数据应用模式实证结果分析

高校图书馆大数据应用模式实证结果分析

【摘要】:“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。

1.关联结果分析

应用Spark对图书和论文数据库中的数据处理,共构成8组二元组,保存为RDD文件,见表10.9。

(1)关联媒介为“领域名称”的二元组数目最大,达到55亿多条。因为“领域名称”分类相对较少,每个“领域名称”下包括的文献非常多,这些文献都要建立关联,因而数量最多。“领域名称”关联与“中图法分类名”关联相加占关联二元组总数的比例达91%,共同构成整个关联的基石。从统计学意义上看,如此巨量的关联二元组必然是排名的关键要素。另外,由于“领域名称”关联约占72%的比例,必将导致此类型关联的总评分值被拉高。为避免该类型的关联“一家独大”,影响推荐的精准性,所以在评分标准上将其权重设为最低档“1”,以平衡其巨大基数造成的影响。

表10.9 关联二元组

(2)图书与论文在“作者”上的关联数目最小。该类关联是通过“作者”对应的字符串匹配,判断是否相同而实现关联,由于“作者”的姓名千差万别,且同一“作者”既出版图书又发表论文的情形毕竟有限,所以关联数目最少在情理之中。由于此种类型数目少,为平衡起见,将其权重值设为较高值“3”。一般而言,此类关联的精准度较高,但是由于现实中作者存在“同名”现象,导致出现一定的匹配错误,从而给精准度带来负面影响,但总体说来,瑕不掩瑜。

(3)图书的“中图法分类名”与论文在“领域名称”上的关联,以及图书的“中图法分类名”与论文的“关键词”的关联占比之和为1.29%,其权重设置原理同其他类型相同,此类关联是实现图书与论文交叉推荐的基础。

关联分析结果表明,“评分规则制定”的相关分析,以及权重的设置,与大数据系统运行的实际结果相互印证,逻辑上也能得到合理的解读。

2.原型系统及推荐结果分析

如图10.12所示为推荐原型系统的显示界面,显示为图书和论文的推荐Top 10列表。其中虚线方框为方便说明所添加:标记①是用户浏览论文“孙建军:图书情报专业学位教育的整体规划与可持续发展”时,点击该论文链接,系统推荐功能激活后的推荐结果,推荐页面只显示了部分列表,其他页面隐藏在滚动条下。标记②所对应的区域是系统所推荐的图书列表,可以看出前三条推荐结果与用户原来浏览的论文非常相关,经查证为南京大学信息管理学院孙建军的著作,因为基于“作者”的论文到图书的评分较高,所以排名也较为靠前;右边为推荐结果中的论文列表,其中标记③与用户所浏览的论文内容具有高相关性,经查证也为南京大学信息管理学院孙建军的论文,因为基于“作者”的论文到论文的评分也较高,所以排名也靠前,因此可以看出,所设计的关联方案、评分规则是合理的,其排名方法是有效的。

图10.12 推荐原型系统的显示界面

值得注意的是,在图书和论文的列表中,都出现了相关不高的文献,如图书列表的其他部分,是“同名不同人”其他作者的著作。但由于基于“作者”排名的评分较高,也排在了文献列表的前列。