首页 理论教育高校图书馆知识图谱在大数据环境下的应用

高校图书馆知识图谱在大数据环境下的应用

【摘要】:在大数据环境下,社团规模急剧扩大,可以达到百万以上的级别。

随着资源数字化进程的急速推进,众多领域的数字资源具有数据增加迅速,总数据量大,种类繁多且价值密度低等大数据特征,这将会给两类知识图谱在知识管理各阶段的相互关系及未来发展产生明显影响。

1.知识获取和组织阶段的相互借鉴

“科学知识图谱”的数据一般依赖于现成的数据库获取知识,并在此基础上构建网络模型组织知识。海量数据下,特别是关联数据技术已成为数据库技术发展的潮流,借助多种数据库关联,能更加全面地融合各种知识和产生创新型知识。因此借鉴“Google知识图谱”的理念,从互联网和云计算系统中收集数据,以及关联多种异构数据库来构建知识库,是大数据时代“科学知识图谱”获取知识的重要手段;另一方面,在社会网络建模过程中,融入语义网的构建方法,在不同的节点间嵌入强语义关联,能够使得社会网络具有推理能力,实现网络分析的智能化。

“Google知识图谱”可以借鉴“科学知识图谱”中的社会网络分析方法,如中心性、凝聚子群和核心-边缘结构等方法,从上述多个角度分析语义网实体之间的结构和关系,从而有利于全面解析语义网的特征。

2.知识存储和共享阶段的各自发展

“科学知识图谱”区别于“Google知识图谱”的重要功能在于能通过网络分析发现社团和社团中的关键人物,基于网络路径分析方法实现社团中成员的知识共享。在大数据环境下,社团规模急剧扩大,可以达到百万以上的级别。大规模社会网络分析对计算机硬件以及相关算法的性能将提出更高的要求,可以预见,基于分布式计算机集群的云计算技术将会成为“科学知识图谱”大规模网络分析的主要手段。

“Google知识图谱”需要建立知识库,以存储海量的结构化语义网知识,基于分布式存储技术以取得更大存储容量;另外,优化分布式数据库的增、删、改、查以获取更优的管理性能是当前迫切需要解决的问题,代表技术如Hadoop平台上的分布数据库NoSQL技术等。

3.知识创新阶段的深度融合

应用数据挖掘算法从网络中发现知识是知识创新的重要手段,由于两类知识图谱在分析方法上同属于网络分析范畴,有关网络分析算法和工具能够相互通用并深度融合。针对海量数据挖掘的聚类和关联挖掘等属于“Google知识图谱”的机器学习算法,可以集成到“科学知识图谱”相关的软件工具中,以提高算法和工具分析性能;另外,“Google知识图谱”可以利用“科学知识图谱”中的可视化算法和工具展现大规模语义网,清晰显示海量知识实体之间的复杂关系。