首页 理论教育高校图书馆大数据应用:两类知识图谱的区别

高校图书馆大数据应用:两类知识图谱的区别

【摘要】:作为大数据时代产物的“Google知识图谱”,紧密依存大数据理论,以及关注数据规范性和关联性的本体和语义网理论。“科学知识图谱”本质是知识管理的分析方法,一般较少涉及知识存储过程。“Google知识图谱”本质是以语义三元组为基础的结构化海量知识库。依据知识应用目的可以分为通用知识图谱和行业知识图谱,见表12.1。“科学知识图谱”侧重于知识共享,兼具知识创新功能;而“Google知识图谱”则只偏重于知识创新。

1.相关理论渊源

科学主体和学科知识为研究对象的“科学知识图谱”,用图形方式直观呈现科学主体(或学科知识)的网络结构、知识单元互动和知识群体演化等隐含的复杂关系,其产生有深刻的理论渊源。相关支撑理论有揭示网络结构和演化关系的“社会网络分析”理论,强调知识创新的“知识单元离散和重组”理论,尤其是在科学史和科学哲学领域中,库恩提出的“科学发展模式”理论。[17]库恩认为,科学发展进程实质是通过新旧“范式”交替更迭的模式,不断推动科学创新和科学革命。“科学知识图谱”是“跟踪科技前沿、选择科研方向、开展知识管理并辅助科技决策”的重要方法和工具[18],以助益科技活动、强化知识管理等方式,有力地促进了旧范式突破和新范式诞生,从而积极推动科学发展的进程。

作为大数据时代产物的“Google知识图谱”,紧密依存大数据理论,以及关注数据规范性和关联性的本体和语义网理论。由于信息技术飞速发展引起了数据生成、传播与存储方式的巨大变革,为更全面、精准和高效获取知识以及发现创新知识,“Google知识图谱”以本体建模为手段,通过领域概念术语的规范化,推动知识全面共享,借助于语义网分析理论挖掘并发现新知识,应用语义网知识库关联方法实现海量知识的分布式存储。

2.知识管理视角

已有的相关研究文献对知识管理的过程划分并不完全一致,但一般包括知识获取(采集)、知识组织、知识存储(检索)、知识共享和知识创新等阶段。[19][20][21]两类知识图谱的共性在于两者都是服务于知识管理过程,区别在于两者分别参与不同的过程,完成不同的功能。如图12.1所示,“科学知识图谱”本质是知识管理的方法,一般与知识获取、知识组织、知识共享和知识创新密切相关,“Google知识图谱”本质是知识库,参与了知识获取、知识组织、知识存储和知识创新过程。

图12.1 基于知识管理的两类知识图谱比较

(1)知识获取。以知识收集和整理为主要功能的知识获取是知识管理的首要环节。“科学知识图谱”一般利用已构建的专业数据库,这些数据大多来自于科学引文索引(SCI)、社会科学引文索引(SSCI)、艺术人文引文索引(A&HCI)、中文社会科学引文索引(CSSCI)等数据库或其收录的核心期刊文献,如美国医学文献数据库(pubmed),中国知网数据库(cnki)等,数据类型有期刊论文会议论文、专利基金、出版物等,这些专业的数据资源具有客观、准确的特点;另外,将社会媒体数据、网站日志、人物履历数据等不属于文献的数据作为其知识获取的来源。

“Google知识图谱”是从包含各种结构化的数据库(如各类专业数据库)和非结构化的来自于互联网、物联网、云计算平台的海量数据(如图片、视频、日志等)中获取知识。应用信息领域的专业工具,如Flume(flume.apache.org),Kafka(kafka.apache.org)等,将结构化和非结构化数据导入和整合,并通过抽取、转换和装载工具(Extraction,Transformation,Loading,ETL)形成结构化的知识。

(2)知识组织。一般是指对获取的知识进行表示、分类、编码使其有序化,以利于知识应用和管理,应用信息技术对知识建模是知识组织的核心环节。[22]“科学知识图谱”一般使用社会网络建模方法:基于各类专业数据库中的知识,依据相关需求,如科学家合作研究,引文分析,生物模块预测等,将知识抽象成节点,而节点之间的关系抽象成边,从而构建成网络模型,各类模型因节点关系的不同而具有不同的网络结构。如科学家合作网络可以将科学家作为抽象节点,以是否共同发表论文确定节点间是否存在边连接,构建社会网络分析模型。相关的建模工具有Ucinet(www.analytictech.com/ucinet/),Pajek(vlado.fmf.uni-lj.si/pub/networks/pajek/)等。

在知识组织过程中,“Google知识图谱”首先分析实体(现实世界的各种概念)的元数据(实体属性,用于表述实体的特征),依据元数据构建本体模型,再依据实体之间语义关联构建语义网。按照语义网的构建规则,每个实体有唯一标识符,实体之间存在关联,也称作关系。“Google知识图谱”一般以图模型来描述语义关系:其中的节点表示实体,而节点之间的边用来刻画属性或关系。实体、属性和属性值以W3C提出的资源描述框架RDF或属性图为构建规则,构成语义三元组,是语义网的基本单位。在大数据背景下,大量的语义三元组的相互链接即构成大规模的语义网知识库,其中本体建模工具有Protégé(protege.stanford.edu),WebOnto(kmi.open.ac.uk/technologies/name/webonto);语义网建模工具有D2R(d2rq.org/d2r-server),LMF(code.google.com/p/lmf/)等。

(3)知识存储。主要是将知识存储到各种载体,如书籍、期刊或数据库中。“科学知识图谱”本质是知识管理的分析方法,一般较少涉及知识存储过程。

“Google知识图谱”本质是以语义三元组为基础的结构化海量知识库。依据知识应用目的可以分为通用知识图谱和行业知识图谱,见表12.1。通用知识图谱一般指常识性知识,如维基百科、百度知心等百科类知识库,其中“Google知识图谱”已经包含超过5亿个实体,35亿个属性和相互关系;行业知识图谱则是指具有行业领域知识特征的结构化知识库,如Geonames知识库是存储基因组本体的知识库,Linked Movie Database是存储影视本体的知识库,阿里巴巴知识库则是存储商品本体的知识库等。

表12.1 “Google知识图谱”举例

(4)知识共享和知识创新。主要涉及个体或组织(或群体)的知识学习以及知识传播,关注创新型知识的产生环境、机制和方法。“科学知识图谱”侧重于知识共享,兼具知识创新功能;而“Google知识图谱”则只偏重于知识创新。基于社会网络分析方法,“科学知识图谱”依据社会网络模型和聚类分析工具,能准确构建成员关系密切的社区及发现社区关键人物,在此基础上构建知识共享的网络路径,如通过社区中的关键人物共享和传播知识;基于cytoSpace(www.cytoscape.org/)和visAnt(visant.bu.edu/)等网络可视化平台,“科学知识图谱”能应用聚类等算法从纷繁复杂的知识网络中发现创新型知识,借助可视化工具清晰展示知识结构和脉络,绘制知识地图,以导航方式显示知识之间的重要动态联系,方便用户把握知识来源、知识流动和知识汇聚过程的来龙去脉。

“Google知识图谱”的长处是应用机器学习算法发现创新型知识。通过关联规则、图聚类等算法,分析所构建的语义网知识库,形成创新型知识,在此基础上基于实体检索方法提供智能检索和个性化推荐功能,为用户提供高质量的知识服务。

3.适用研究领域

除了本书重点讨论的图书情报领域之外,“科学知识图谱”的应用主要还集中在科学学、管理学和教育学等诸多领域。一般用于展示各领域的学科结构,可视化学科研究内容,揭示学科间的关系,以及识别和分析学科发展新趋势和预测学科前沿等。尤其对于科学学领域,在梳理科学发展历史,描述以科学家(团体)为代表的科学主体之间的科研合作情况,以及科技政策辅助分析和决策咨询等方面发挥日益重要的作用。[23][24]

“Google知识图谱”的应用重点集中在信息科学领域,依照万维网联盟W3C制定的领域本体规范,主要由大型互联网企业构建实施,以推进知识创新和提供高水平知识服务为目标,目前涉及的行业和部门有证券医疗商业、娱乐、图书馆和情报行业等。