首页 理论教育Bio2RDF项目案例解析:科学数据管理与共享实践

Bio2RDF项目案例解析:科学数据管理与共享实践

【摘要】:我们以Bio2RDF项目为例来探讨利用关联数据技术实现科学数据的集成与共享的具体方法与机制。目前,Bio2RDF项目发布了第二个版本即Bio2RDF R2。而Bio2RDF R2目前更新了第一个版本14个数据集并新增了5个数据集,具备以下新的特征。其中,namespace是数据集在数据注册中心的简称,identifier是由Bio2RDF的脚本创建和分配的标识符。在Bio2RDF关联数据的发布过程中由于资源的多样性和发布的离散性等原因面临着URI共指的问题。

我们以Bio2RDF项目为例来探讨利用关联数据技术实现科学数据的集成与共享的具体方法与机制。

(1)项目简介与进展

Bio2RDF项目是由加拿大基因组和魁北克基因组资助的生物信息学知识集成的开源项目,致力于构建生命科学领域数据库的关联数据网络。目前,Bio2RDF项目发布了第二个版本即Bio2RDF R2。其第一个版本集成了40多种生物医学信息资源,将这些数据库资源同一转化成RDF三元组形式,共创建了约50亿个RDF三元组。而Bio2RDF R2目前更新了第一个版本14个数据集并新增了5个数据集,具备以下新的特征。第一,发布了来源元数据。使用W3C的VIoD、PROV词汇集和都柏林核心词汇集发布数据集及数据记录的来源元数据,包括发布者、时间、开放许可等信息,有助于数据的溯源。第二,制定了数据集的度量标准。对于每一个数据集分别采取了三种度量标准,其中包括三元组总数、文本三元组数量、实体间关系数量等指标,不仅可以较好地观察数据集的更新信息,还有助于快速建立正确的SPARQL查询。第三,简化SPARQL查询的制定。利用SPARQLed开源应用程序的上下文环境推荐功能,有效地简化SPARQL查询的制定。

(2)基于关联数据的集成与共享机制

①URI命名与复用机制。

URI统一资源标识符在关联数据的集成和共享机制中发挥着重要的基础作用,使得各类实体资源与抽象概念能被唯一标识,并基于HTTP的解析机制被检索和查询。Bio2RDF对所有的资源采取了统一命名的策略,资源的URI有三种设计模式。

第一,对于具有唯一标识符的资源,实体的命名如下:http://bio2rdf/namespace:identifier。其中,namespace是指每个数据源的命名空间,是数据集在资源注册中心的简短名称,identifier是数据提供者唯一标识该资源的标识符。例如来自PubMed中一篇identifier为12728276的文章的URI为http://bio2rdf/pubmed:12728276。

第二,对于没有标识符的资源,实体的命名如下:http://bio2rdf.org/namespace_resource:identifier,这一模式通常用于标识对象之间的关系。其中,namespace是数据集在数据注册中心的简称,identifier是由Bio2RDF的脚本创建和分配的标识符。例如,在比较毒理基因组学数据库(CTD)中标识符为mesh:C112297和标识符为mesh:D029597之间的化学—疾病之间的关系命名为:http://bio2rdf.org/ctd_resource:C112297D029597[127]

第三,对于特定类型的数据集实体及其关系的命名如下:http://bio2rdf.org/namespace_vocabulary:identifier。其中,namespace是数据集在数据注册中心的简称,identifier是由Bio2RDF的脚本创建和分配的标识符。例如,美国国立生物技术信息中心(NCBI)的HomoloGene数据库提供了同源的真核基因组资源,并包含该基因组参引的生物分类。因此,Homelogene基因组资源作为一类被标识:http://bio2rdf.org/homologene_vocubalary:Homologene_Group,分类关系为:http://bio2rdf.org/homologene_vocabulary:has_taxid[128]。为了确保不同脚本创建和分配的URI的一致性,Bio2RDF建立了每个脚本必须使用的公共资源注册中心。不仅为每一个数据集制定唯一的命名空间(如Protein Data Bank数据库的命名空间为“pdb”),而且在需要时制定数据集内使用的一级和二级URIs(如http://purl.obolibrary.org/obo/,http://purl.org/obo/owl/等),这确保了生成的关联数据集之间具有较高的语法和语义的互操作性。另外,Bio2RDF在针对URI命名还制定了一些简单的规则如URI中命名空间均使用小写字母、所有的URI均应返回相应的RDF文件等。

在Bio2RDF关联数据的发布过程中由于资源的多样性和发布的离散性等原因面临着URI共指的问题。Bio2RDF采取的措施是在出现的URI别名之间构建同一性连接,即使用RDF属性链接owl:sameAs来声明两个URI实际指向同一资源对象。例如,SGD数据库中S000006169的URI http://bio2rdf/sgd:S000006169通过owl:sameAs与BioGrid数据库中的http://bio2rdf/biogrid:35915链接起来。同一性连接并非对关联数据中URI复用原则的否定和替代,而是以一种去中心化的方式对URI复用的扩展和补充。

②RDF描述与链接机制。(www.chuimin.cn)

关联数据采用RDF三元组“主—谓—宾”结构对资源进行语义描述。由于三元组中的宾语一方面能够提供主语基于特定谓语属性的属性值或关联对象,另一方面也可能成为其他的RDF三元组的主语,因而赋予了RDF模型以天然的链接结构。表5-3展示了Bio2RDF中实体omim:602080的部分RDF三元组。第一个三元组声明了该实体的URL,第二个三元组声明了URI“http://bio2rdf.org/pubmed:10615125”所标识的宾语pubmed:10615125是http://bio2rdf.org/omim:602080所标识的主语在PubMed数据集中相关的文章。其中,通过对宾语URI进行解析,还可以获得PubMed数据集中实体pubmed:10615125的相关RDF描述和链接。

表5-3 描述omim:602080的RDF三元组(部分)

注:表中Object下为有关联的链接项。

由上述例子可以看出,RDF三元组能够通过声明URI标识的资源之间由谓语所定义的语义关系,将来自不同数据集中的资源关联起来。通过URI解析能够获得实体资源的RDF描述,而这些描述信息中很可能会进一步包含(如表5-3中第二、第四个三元组)指向其他数据集中的RDF链接。同时,如果两个数据集之间存在不止一个RDF链接,而多个RDF链接的复合关联可以将这两个数据集集成在一起。基于此,采用RDF数据模型发布的关联数据集通过RDF链接实现了与其他数据集的集成,并形成了Bio2RDF关联数据网络。

将各类资源对象及其关联关系以RDF形式发布到关联数据网络中,需要利用各种关联数据发布工具,将数据转换成关联数据所要求的RDF数据形式。Bio2RDF创建了一个JSP工具箱,可以编写和生成RDF化程序从而将不同来源与格式的数据如关系型数据库、文本文件、XML文档、HTML网页等转换为RDF数据。其中,对于每一种格式的数据均有相应的JSP转换程序。例如,ncbi-omim2rdf.jsp程序可将NCBI中孟德尔人类遗传在线(OMIM)数据库记录的XML文档转换为RDF数据。首先,该程序从NCBI的网站上获取实体的相关信息如某一疾病的OMIM中ID,并将此XML文档置于内存中以便进行转换。其次根据Bio2RDF所创建的相关本体从文档中抽取所需的信息并进行转换。

③数据的获取与共享方式。

从Web上获取Bio2RDF的关联数据主要有以下三种方式:第一,HTTP参引方式。通过HTTP URI可以参引并获取资源的RDF描述及相关的RDF链接。具体的实现方式包括关联数据浏览器如Tabular、Disco等及语义搜索引擎如SWSE、Sindice等。第二,RDF转存文件方式。Bio2RDF可以提供RDF/XML、N3、HTML、JSON等多种格式的下载或在线浏览,最大限度地促进了数据的共享和重用。第三,SPARQL端点查询的方式。在Bio2RDF中,每个关联数据集有自己的SPARQL查询端点,即为http://[namespace].bio2rdf.org。例如,Saccharomyces Genome Database(SGD)的SPARQL查询端点为:http://sgd.bio2rdf.org。同时,Bio2RDF也可以在一个查询式中实现对多个或所有数据集的查询。

以Bio2RDF项目为例,利用关联数据技术实现科学数据的集成与共享的方法与机制进行探讨,即是关联数据通过对实体或概念的语义描述和开放发布实现了数据资源的充分揭示和自由存取,进一步依托语义链接的构建而实现了资源间关系的关联,从而最终实现了数据资源的语义集成与共享。由于关联数据还没有引起国内科学数据领域足够的关注,还没有形成基于关联数据的有影响力的应用,因此本研究对于国内基于关联数据的科学数据的研究与实践具有一定的参考作用。然而必须承认的是,关联数据的集成与共享机制在科学数据领域的广泛应用还有赖于研究者在关联数据质量与可靠性保证、URI共指问题、RDF链接的构建与维护等方面取得进一步突破。随着语义网技术的不断发展,在开放网络环境下关联数据在科学数据的集成与共享中的应用也将日臻成熟。