首页 理论教育快速构建知识图谱方法

快速构建知识图谱方法

【摘要】:知识图谱的构架技术主要包括以下四个步骤:实体抽取。主要是对有歧义的实体属性信息进行消歧。在实现上,流程如图1所示。在保存实体和实体之间关系的过程中,会进行增量更新,提高效率。由于数据量大,本工具在进行查询和保存数据的过程中进行了分页处理,在处理过程中可以随时中断,并在下次处理数据时可从中断处继续处理,大大提高了数据处理速度。图1知识图谱构架流程

知识图谱的构架技术主要包括以下四个步骤:

(1)实体抽取。即从各种类型的数据源中抽取出实体(概念)、属性以及实体之间的相互关系,在此基础上形成本体化的知识表达。

(2)实体对齐。主要是对有歧义的实体属性信息进行消歧。

(3)关系建立。给对应实体之间建立边的关系将实体联系起来。

(4)结构化展示。利用可视化技术对实体及之间的关系进行可视化展示。(www.chuimin.cn)

在实现上,流程如图1所示。

在实现上,本文使用的是某论文期刊网站上的数据源。通过搭建Scrapy爬虫框架,使用etree.HTML(源代码)解析网页源代码得到Selector对象,利用Selector.xpath(神奇符号)去定位复杂网页中需要抓取的实体属性信息。本文主要抓取了专利、论文、期刊、会议四大数据源数据。通过配置MySQL数据源和Neo4j数据源,编写Java代码,针对不同的数据格式,定义对应的数据解析规则使用正则表达式进行了实体抽。将MySQL数据库中的部分字段值进行规范化后,选择要抽取的实体及字段,并对这些实体进行封装,定义实体与实体之间的关系以及关系的方向,通过增加自定义字段作为唯一性约束,对实体进行对齐操作。最后将实体和实体之间的关系一并保存到图数据库中。在保存实体和实体之间关系的过程中,会进行增量更新,提高效率。由于数据量大,本工具在进行查询和保存数据的过程中进行了分页处理,在处理过程中可以随时中断,并在下次处理数据时可从中断处继续处理,大大提高了数据处理速度。

图1 知识图谱构架流程