随着大数据技术不断发展,知识图谱成为当前的研究热点。对网络上公开的论文、专利等数据进行分析,并基于图数据库Neo4j对面向科技文献领域的知识图谱进行设计与实现,为面向特定领域的知识图谱构建提供了思路和方法。关键词:知识图谱,Neo4j,图形数据库资助项目:上海市科委研发平台专项、上海产业研究院创新先锋计划项目。......
2025-09-30
本系统中使用的数据包括科技文献数据。其中对应到MySQL数据库中的表有paper_degree(论文)、paper_journal(期刊)、paper_meeting(会议)、patent(专利)、Unit(企业或学校)。将关系型数据库中的数据导入到图数据库中有两种导入方式,一种是使用Cypher提供的LOAD命令直接从CSV文件导入,导入格式如load csv with headers from "file:///neoj4/paper.csv" as row create (n:Entiry) set n = row ,在导入时需要将要导入的CSV数据保存到import文件夹下;另一种是在程序代码里通过连接MySQL数据源获取要导入的数据,使用正则表达式,对不规则的数据进行规整化处理,使得要抽取的实体属性能够正确匹配,然后将要抽取的实体封装成对象,获取Neo4j数据源,把这些对象通过repository接口的save方法进行保存。在save对象之前可以使用@Relationship注解和对应的set方法为实体建立好需要保存的关系,最后调用repository的save方法保存对象,该接口会去查找要保存的对象是否存在要创建的边的关系,如果有则会将实体和关系一并保存到图数据库中。本系统最终选择了通过Java代码在程序中解析保存对象的方式,由于数据量比较大,每次导入使用了分页机制。使用这种方式导入数据可以保持数据与之后操作处理的一致性,每次在导入数据时,系统都会自动检查当前数据是否已导入,如果已导入则不会重复导入。并且可以缓存保存的对象,这样后面使用时就不需要再次从图数据库中查询,如果建立两个节点的关系时就直接使用已经在内存中缓存的对象,避免了耗时的数据库查询IO操作。
本系统中节点的类型主要有14种类型,分别包括Agency、Agent、Author、Copyright、Fund、Inventor、Journal、JournalName、KeyWords、Paper、Patent、StudyField、Tutor、Unit。关系类型主要有11种,分别为Application、Invention、agentedBy、directedBy、hasKeywords、haveJournal、studiedIn、studyField、supportted、workIn、writtedBy。其中Patent、Paper、Journal、Copyright还有其他属性信息。其中所有的边都是有向边,例如workIn就是一条由Author指向Unit的有向边,表示该作者在某个单位工作。(https://www.chuimin.cn)
相关文章
随着大数据技术不断发展,知识图谱成为当前的研究热点。对网络上公开的论文、专利等数据进行分析,并基于图数据库Neo4j对面向科技文献领域的知识图谱进行设计与实现,为面向特定领域的知识图谱构建提供了思路和方法。关键词:知识图谱,Neo4j,图形数据库资助项目:上海市科委研发平台专项、上海产业研究院创新先锋计划项目。......
2025-09-30
表1金融数据中心SDN基本评测维度4.2.2.2子步骤2:结合SDN自身特性SDN与传统网络在技术、架构等方面存在着许多不同之处。至此,金融数据中心SDN评测模型已建立完成,模型从两个层次、五个方面、六个维度上对金融数据中心SDN实施评测。......
2025-09-30
图18-2双A臂悬架概念模型运行仿真设定。图18-4ADAMS/INSIGHT输出界面创建设计矩阵。图18-9右轮前束角图18-10左轮前束角优化结果。单击Simulation > Adams/Insight > Display命令显示如图18-11所示的界面;图18-11优化结果输出界面模型树下单击:Work Space,计算优化出的结果如图18-12所示,从结果......
2025-09-30
而应对这些趋势,关系型数据库产生了更多的不适应。在NoSQL四种分类中,图数据库从最近十年的表现来看已经成为关注最高,也是发展趋势最明显的数据库类型。图3就是db-engines.com对近三年来所有数据库种类发展趋势的分析结果。......
2025-09-30
在没有数据库打开的情况下创建的表,将成为自由表。按数值表达式建立临时关系,子表可以不建立索引。所以本题的答案为“临时关系”。......
2025-09-30
下表列出了部分企业的大数据策略。淘宝不仅能记录买家的购买数据和浏览数据,就连买家在两个浏览行为之间,停留了多少时间这样微小的动作都会逐一记录。这些数据的价值在当下或许不会得到体现,但在将来用户需求发生变化时,也许就能对淘宝产生极大的帮助。这是大数据时代下企业打造数据资产的思路。如何利用大数据,掌握数据资产,进行智能化决策,已成为企业脱颖而出的关键。而其中应用最为广泛的是数据库营销。......
2025-09-29
由于私募股权需要同投资者直接会面、签署合约,投资人数通常较少,是由数个股份占比较大的投资者完成投资。图4.9CNKI—框式检索检索方式七:期刊导航①进入:点击首页的“期刊导航”或检索页面的“期刊导航”,进入图4.10所示的导航页面。如果不能正常打开下载的文件,需安装新版CNKI E—Study。......
2025-09-29
Corel-10K数据库含有100个图像类别,包括桥梁、瀑布、草原、国旗、邮票、食物、汽车、灯塔等,图7-6展示了Corel-10K数据库的一些图像类别,从图7-6也可以看出纹理特征广泛存在于自然界和日常生活中。Corel-10K数据库的每个类别有100个样本图像,因此该数据库一共有100×100=10 000个样本图像,大部分图像的分辨率为187×126或192×128。......
2025-09-29
相关推荐