首页 理论教育基于关联数据的科学数据集成与共享研究:理论与实践

基于关联数据的科学数据集成与共享研究:理论与实践

【摘要】:而关联数据作为一种新兴的数据关联与集成技术,恰恰为此提供了一条有效的途径。利用URI标识不同的实体对象,关联数据描述的粒度更加细化、语义化,并可跨领域得到更广泛的数据参引。采用RDF三元组“主语—谓语—宾语”的形式,关联数据描述科学数据及其间关系,通过RDF链接,可以形成提供数据集成与共享的关联数据网络。

科学数据是指人类在认识世界、改造世界的科技活动中所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息[104]。由于科学观察、探测、实验和研究的设备的改进、计算机和互联网技术的发展以及大规模合作的科学态势,科学数据呈现出海量增长的趋势。欧盟科学数据高级专家组于2010年10月向欧盟委员会提交的《欧洲如何驾驭科学数据浪潮》的报告中指出一台高性能的DNA测序仪每天可读取约260亿个人类基因码,产生的数据流比20个美国国会图书馆一年的数据量还大[105]。因此,如何对海量的、分散的、异构的科学数据进行集成与共享,使其可以作为一个整体发挥最大的价值成为科学数据管理中必须解决的问题。

除了元数据目录技术、科学数据平台、Web Service技术外,本体、Mashup等技术均被运用以实现数据的集成与共享。但是,这些技术要么集成的内容对象单一且缺乏延展性,要么缺乏细粒度的语义描述与解析或是依赖复杂的集中系统,都不能够实现细粒度的语义化、关联化的集成与共享。而关联数据作为一种新兴的数据关联与集成技术,恰恰为此提供了一条有效的途径。(www.chuimin.cn)

2006年,Tim Berners-Lee提出了关联数据这一概念,指出关联数据是在语义网中使用URI和RDF发布结构化数据并构建数据之间链接的最佳实践方式[106]。我们认为:关联数据在实现科学数据集成与共享中具有一定的优势。第一,URI标识与复用。利用URI标识不同的实体对象,关联数据描述的粒度更加细化、语义化,并可跨领域得到更广泛的数据参引。第二,RDF描述与链接机制。采用RDF三元组“主语—谓语—宾语”的形式,关联数据描述科学数据及其间关系,通过RDF链接,可以形成提供数据集成与共享的关联数据网络。