高校图书馆大数据应用模式与实证研究：实证设计

2023-07-24 理论教育版权反馈

【摘要】：为验证本方案的可行性以及观察文献推荐效果，开展以下实证研究。本方案着重讨论面向内容的推荐，而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文，依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果，共形成15对关联二元组。按照这种方式，海量的图书和论文二元组将构建成大规模推荐网络图。

为验证本方案的可行性以及观察文献推荐效果，开展以下实证研究。

1.实证数据准备

采用4.5.2节所述的图书馆馆藏数据库（共1 227 724条）和自行从互联网获取的论文库（共473 432条）。

2.元数据选取及混合关联类型

（1）元数据选取。本方案着重讨论面向内容的推荐，而图书或论文的内容在很大程度上由关键元数据决定。

如图10.2所示，“图书”对象的元数据有id（编号）、title（书名）、author（作者）、CLCName（中图分类法名）等，一般而言，当用户获取了某本图书的“作者”“中图法分类名”的信息，便能大致了解该图书的内容指向或范围；另外，由于图书“作者”相对固定，而“中图法分类名”是具有本体属性的领域规范，有利于实现精准推荐，本方案将其作为图书数据库中用于关联的元数据。

“论文”对象的元数据有id（编号）、title（篇名）、领域名称（field）、作者（author）和关键词（index Term）等。一般而言，当用户获取了某篇论文的“作者”“关键词”和“领域名称”的信息，便能判断该论文的内容指向或范围。同理，因为论文“作者”相对固定，论文“关键词”和“领域名称”是具有本体属性的领域规范，因此将其作为论文数据库中用于关联的元数据。

pagenumber_ebook=116,pagenumber_book=107

图10.2　“图书”对象和“论文”对象

需要指出的是，文献的标题如图书书名或论文篇名，也能反映文献内容指向及范围，但是由于文献标题极少重复，无法建立有效关联，因此不适用于作为关联的元数据。

本方案设计了两大类型（共8个小类）关联，如图1中“关联策略”框所示。

①同类文献关联。图书与图书关联共2种：图书与图书在“作者”上的关联、图书与图书在“中图法分类名”上的关联。论文与论文关联共3种：论文与论文在“作者”上的关联、论文与论文在“领域名称”上的关联，以及论文与论文在“关键词”上的关联。

②非同类文献关联。一般分为3种情况：图书与论文在“作者”上的关联、图书的“中图法分类名”与论文的“领域名称”的关联，以及图书的“中图法分类名”与论文“关键词”的关联。

（2）文献关联举例。为清晰说明元数据的关联过程，以论文到图书的关联为例说明，其他关联方法与此类似。如图10.3所示，假设图书数据库中有两本图书Book1和Book2，论文数据库中有某篇论文Paper1。其中图书Book1、Book2以及论文Paper1三个对象都有相同的作者“苏新宁”，因此，这3个文献可以用文献id关联，形成3对二元组，即实现了三者之间基于“作者”的关联，其中“作者”是关联媒介。由于这样关联的数据量巨大，由Hadoop环境下Spark运算完成，并存储到服务器内存或数据库中，作为推荐的备选项。

pagenumber_ebook=117,pagenumber_book=108

图10.3　文献关联举例

当用户在推荐系统中通过网页导航或浏览时，一旦点击了《数据仓库和数据挖掘》（id为307285）这本书的链接后，系统的推荐功能激活，通过所建立的关联（二元组）进行论文推荐：在系统弹出该书的描述性网页的同时，网页上还推荐并显示书名为《信息检索理论与技术》（id为126547）的图书以及题名为《基于模式匹配的中文通用本体概念抽取模型》（id为1000332945）的论文。值得强调的是，id为126547和1000332945的两篇文献是关联“推荐”所得，非“检索”所得。

3.评分规则制定

关联评分表见表10.1。将文献之间的“关联”数值分为1、2和3的三种评分，分值越大，强度越高，越值得推荐。由于本方案的设计理念是基于内容的推荐，一般而言，同一“作者”发表的著作或论文在内容上的相关度最高，因而认为基于“作者”的关联是强关联，而且该关联是以“字符串匹配”方式获得，预期其二元组相对数量稀少，因而实证过程中将其值设置为最高值“3”；而“关键词”或“中图法分类名”相同的文献，表示文献的内容在某一细分的领域内有一定的相关度，文献在内容上的关联没有基于“作者”的关联密切，因而将其值设置为“2”；由于学科研究领域涉及内容很广泛，“领域名称”相同的文献，仅表示文献的内容同属于某一研究领域，在内容上相关度较弱，另外，同一领域名称的文献数据较多，预期其关联二元组数目较多，因此认为基于“领域名称”的关联是弱关联，将其权重值设为最低值“1”。

表10.1　关联评分表

pagenumber_ebook=118,pagenumber_book=109

4.基于图计算的排名过程

（1）举例数据。为便于说明，以表10.2和10.3数据举例并分析图计算过程。

表10.2　图书数据（用于举例）

pagenumber_ebook=119,pagenumber_book=110

表10.3　论文数据（用于举例）

pagenumber_ebook=119,pagenumber_book=110

表10.4是结合表10.2中的图书与表10.3中的论文，依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果，共形成15对关联二元组。

（2）构建推荐网络图。图10.4A为依据表10.4中的关联结果构建的推荐网络图的初始状态，网络由节点和连接节点的带权重的边组成，椭圆节点为图书对象，包括两项属性，即图书id和总权重值；矩形节点为论文对象，包括论文id和总权重值。其中节点权重的初始值设置为0。因表10.4关联二元组的数目为15对，推荐基础网络共有15条边。

表10.4　关联结果（用于举例）

pagenumber_ebook=120,pagenumber_book=111

图10.4　推荐网络图的构建（用于举例）

以图书节点id为307285为例（查询表10.2为图书：苏新宁的《数据仓库和数据挖掘》），关联到节点id为126547（苏新宁的《信息检索理论与技术》）的图书，节点id为10000408136［白云.苏新宁的《现代图书情报技术》载文及引文特征的学术影响力分析——基于CSSCI（2004—2006）年］的论文以及节点id为1000332945（苏新宁、王昊的《基于模式匹配的中文通用本体概念抽取模型》）的论文，由于关联的媒介是“作者”，其权重值设为3。按照这种方式，海量的图书和论文二元组将构建成大规模推荐网络图。

（3）合并源节点和目标节点相同的边。如图10.4B所示，将源节点和目标节点都相同的边的权重值相加，减少总边数以简化网络，虚线标记的边为已经被合并权重的边。

（4）计算节点总权重值。对每个节点，计算与其连接的所有边的权重之和，并赋值给对应节点，总权重用于推荐时由高到低的排名，通过Spark中的GraphX函数实现。

高校图书馆大数据应用模式与实证研究：实证设计

相关推荐