首页 理论教育高校图书馆大数据应用模式与实证研究:实证设计

高校图书馆大数据应用模式与实证研究:实证设计

【摘要】:为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。表10.2图书数据表10.3论文数据表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。

为验证本方案的可行性以及观察文献推荐效果,开展以下实证研究。

1.实证数据准备

采用4.5.2节所述的图书馆馆藏数据库(共1 227 724条)和自行从互联网获取的论文库(共473 432条)。

2.元数据选取及混合关联类型

(1)元数据选取。本方案着重讨论面向内容的推荐,而图书或论文的内容在很大程度上由关键元数据决定。

如图10.2所示,“图书”对象的元数据有id(编号)、title(书名)、author(作者)、CLCName(中图分类法名)等,一般而言,当用户获取了某本图书的“作者”“中图法分类名”的信息,便能大致了解该图书的内容指向或范围;另外,由于图书“作者”相对固定,而“中图法分类名”是具有本体属性的领域规范,有利于实现精准推荐,本方案将其作为图书数据库中用于关联的元数据。

“论文”对象的元数据有id(编号)、title(篇名)、领域名称(field)、作者(author)和关键词(index Term)等。一般而言,当用户获取了某篇论文的“作者”“关键词”和“领域名称”的信息,便能判断该论文的内容指向或范围。同理,因为论文“作者”相对固定,论文“关键词”和“领域名称”是具有本体属性的领域规范,因此将其作为论文数据库中用于关联的元数据。

图10.2 “图书”对象和“论文”对象

需要指出的是,文献的标题如图书书名或论文篇名,也能反映文献内容指向及范围,但是由于文献标题极少重复,无法建立有效关联,因此不适用于作为关联的元数据。

本方案设计了两大类型(共8个小类)关联,如图1中“关联策略”框所示。

①同类文献关联。图书与图书关联共2种:图书与图书在“作者”上的关联、图书与图书在“中图法分类名”上的关联。论文与论文关联共3种:论文与论文在“作者”上的关联、论文与论文在“领域名称”上的关联,以及论文与论文在“关键词”上的关联。

②非同类文献关联。一般分为3种情况:图书与论文在“作者”上的关联、图书的“中图法分类名”与论文的“领域名称”的关联,以及图书的“中图法分类名”与论文“关键词”的关联。

(2)文献关联举例。为清晰说明元数据的关联过程,以论文到图书的关联为例说明,其他关联方法与此类似。如图10.3所示,假设图书数据库中有两本图书Book1和Book2,论文数据库中有某篇论文Paper1。其中图书Book1、Book2以及论文Paper1三个对象都有相同的作者“苏新宁”,因此,这3个文献可以用文献id关联,形成3对二元组,即实现了三者之间基于“作者”的关联,其中“作者”是关联媒介。由于这样关联的数据量巨大,由Hadoop环境下Spark运算完成,并存储到服务器内存或数据库中,作为推荐的备选项。

图10.3 文献关联举例

当用户在推荐系统中通过网页导航或浏览时,一旦点击了《数据仓库和数据挖掘》(id为307285)这本书的链接后,系统的推荐功能激活,通过所建立的关联(二元组)进行论文推荐:在系统弹出该书的描述性网页的同时,网页上还推荐并显示书名为《信息检索理论与技术》(id为126547)的图书以及题名为《基于模式匹配的中文通用本体概念抽取模型》(id为1000332945)的论文。值得强调的是,id为126547和1000332945的两篇文献是关联“推荐”所得,非“检索”所得。

3.评分规则制定

关联评分表见表10.1。将文献之间的“关联”数值分为1、2和3的三种评分,分值越大,强度越高,越值得推荐。由于本方案的设计理念是基于内容的推荐,一般而言,同一“作者”发表的著作或论文在内容上的相关度最高,因而认为基于“作者”的关联是强关联,而且该关联是以“字符串匹配”方式获得,预期其二元组相对数量稀少,因而实证过程中将其值设置为最高值“3”;而“关键词”或“中图法分类名”相同的文献,表示文献的内容在某一细分的领域内有一定的相关度,文献在内容上的关联没有基于“作者”的关联密切,因而将其值设置为“2”;由于学科研究领域涉及内容很广泛,“领域名称”相同的文献,仅表示文献的内容同属于某一研究领域,在内容上相关度较弱,另外,同一领域名称的文献数据较多,预期其关联二元组数目较多,因此认为基于“领域名称”的关联是弱关联,将其权重值设为最低值“1”。

表10.1 关联评分表

4.基于图计算的排名过程

(1)举例数据。为便于说明,以表10.2和10.3数据举例并分析图计算过程。

表10.2 图书数据(用于举例)

表10.3 论文数据(用于举例)

表10.4是结合表10.2中的图书与表10.3中的论文,依据混合关联的设计方案进行关联后并依据表10.1的评分标准所得到的结果,共形成15对关联二元组。

(2)构建推荐网络图。图10.4A为依据表10.4中的关联结果构建的推荐网络图的初始状态,网络由节点和连接节点的带权重的边组成,椭圆节点为图书对象,包括两项属性,即图书id和总权重值;矩形节点为论文对象,包括论文id和总权重值。其中节点权重的初始值设置为0。因表10.4关联二元组的数目为15对,推荐基础网络共有15条边。

表10.4 关联结果(用于举例)

图10.4 推荐网络图的构建(用于举例)

以图书节点id为307285为例(查询表10.2为图书:苏新宁的《数据仓库和数据挖掘》),关联到节点id为126547(苏新宁的《信息检索理论与技术》)的图书,节点id为10000408136[白云.苏新宁的《现代图书情报技术》载文及引文特征的学术影响力分析——基于CSSCI(2004—2006)年]的论文以及节点id为1000332945(苏新宁、王昊的《基于模式匹配的中文通用本体概念抽取模型》)的论文,由于关联的媒介是“作者”,其权重值设为3。按照这种方式,海量的图书和论文二元组将构建成大规模推荐网络图。

(3)合并源节点和目标节点相同的边。如图10.4B所示,将源节点和目标节点都相同的边的权重值相加,减少总边数以简化网络,虚线标记的边为已经被合并权重的边。

(4)计算节点总权重值。对每个节点,计算与其连接的所有边的权重之和,并赋值给对应节点,总权重用于推荐时由高到低的排名,通过Spark中的GraphX函数实现。