首页 理论教育科学数据管理与共享的关键实现方式

科学数据管理与共享的关键实现方式

【摘要】:期刊文献与科学数据关联服务的实现中使用的几种工具或媒介是实现该关联服务的关键点,也是关联服务的关键性实现方式。DOI成为众多期刊、数据仓储推广的科学数据识别符,同时也成为期刊文章与科学数据之间关联的重要实现途径。另外,针对科学数据出版以及与期刊文献关联的需求,新的尝试不断涌现。“数据描述”作为传统科研出版物的补充性内容,采用针对科学数据的同行评议,以保证科学数据的完整性和标准化程度。

期刊文献科学数据关联服务的实现中使用的几种工具或媒介是实现该关联服务的关键点,也是关联服务的关键性实现方式。

(1)行文中的明文表达

部分文章包含的科学数据量较小,可通过附加材料的形式在行文中加以呈现,因此部分期刊通过行文中的明文表达,揭示文章支撑数据的存储位置。较为典型的如Biomed Central对期刊文章支撑数据的存储进行规定,要求在文章行文中对支撑数据予以专门描述和表达,并根据数据存储于开放数据仓储或者包含在文章中两种情况进行区别表达(见表5-4),但都提供了文章支撑数据的可链接性或可追溯性的线索。

表5-4 Biomed Central期刊支撑数据的文中表达方式

除行文中的明文表达之外,将较小数据量的科学数据作为附加材料(additional/supplementary files)的形式与期刊文献同时出版,成为许多期刊支持的期刊文献与科学数据相关联的方式之一。根据对医学领域高影响力的28种期刊样本的调查,科学数据作为附加材料形式提供的文章数量每两年翻一番(2003—2009年分别从10篇、22篇、55篇增长到100篇),但多数以图表形式呈现,而支持在线附加材料的期刊比例从2003年的32%增长到2009年的64%[142],而随着在线附加材料形式的广为接受,越来越多期刊支持文献附加科学,PARSE.Insight的调查结果显示超过九成的期刊接受附加材料,科学数据是最重要的资源种类之一[143]

(2)唯一识别符的应用(www.chuimin.cn)

科学数据仓储通过特定的元数据设定或赋予科学数据集以特定的识别符,从而实现科学数据仓储中科学数据与科学期刊之间的关联。DOI成为众多期刊、数据仓储推广的科学数据识别符,同时也成为期刊文章与科学数据之间关联的重要实现途径。科学数据采用DOI识别,可以便捷地实现科学文献与科学数据之间的互访和互联,甚至可以实现对数据运动轨迹的跟踪[144]。Dryad数据仓储赋予科学数据集以特定且唯一的DOI,并通过URL格式的DOI给予科学数据集或科学数据文档以可追溯的地址。通过在出版的科学期刊文献中呈现此数据集的DOI,可实现读者对该支撑数据的追溯和获取[145]。除了广泛应用的DOI识别符之外,还有URL/URN/URI、Persistent Uniform Resource Locators(PURLs)、Extensible Resource Identifier(XRI)、Archival Resource Key(ARK)、Life Science Identifier(LSID)、Object Identifiers(OID)、Universally Unique Identifier(UUID)等识别符机制,在选择所采用的标识符时,多将唯一识别性、唯一定位性、可引用定位性、科学性等作为评估和考量的标准[146]。部分科学数据仓储采用了自我设定的唯一识别符或者索引符,但其作用都是实现科学数据的唯一识别和可追溯、可引用的功能,如当科学数据被存储在GSA Data Repository中时,被赋予唯一索引号(Key Number),该索引号被添加到打印版文章的脚注或者补充说明里,用以追溯存储在科学数据仓储中的科学数据[147]

此外,部分相同或相似学科的科学数据仓储之间建立了相互的映射和关联关系,对某一科学数据仓储的科学数据集检索结果可映射到其他科学数据仓储中,如蛋白领域的科学数据仓储UniProt与GenBank、PDB等多个数据仓储之间可进行科学数据检索结果的相互映射[148]。科学数据仓储通过识别符进行互联,可有效实现不同科学数据仓储之间双向链接,同时针对未给予科学数据DOI识别的科学数据仓储的期刊文献的追溯提供更多可能性。

(3)以科学数据线索为内容的数据文章

科学数据期刊多出版专门针对科学数据的数据文章(Data Paper),通常只对科学数据的提名、日期、作者、摘要、永久识别符、存档资源的链接或者实验条件、设施、环境要求等元素进行描述,而不是以科学数据的详细分析为内容。通常,数据文章提供科学数据与期刊文献的双重线索,从而成为期刊文献与科学数据关联的媒介。此外,部分科学数据期刊实质是集成数据出版和存储的在线平台,如《生物多样性数据期刊》(Biodiversity Data Journal)是一个支持同行评审、开放存取的综合性在线平台,既出版研究型论文,又要求支撑数据(20MB以内)以附加材料的形式出版或者将科学数据存储在外部数据仓储中[149],从而实现了科学数据与期刊文献的有效关联,用以加速生物多样性相关数据的出版、传播和共享。

另外,针对科学数据出版以及与期刊文献关联的需求,新的尝试不断涌现。Scientific Data期刊采用新的内容类型“数据描述”(Data Descriptor)对科学数据集进行针对性描述,并通过对此类内容的索引,提供科学数据的广泛共享以及与期刊文献的关联。“数据描述”作为传统科研出版物的补充性内容,采用针对科学数据的同行评议,以保证科学数据的完整性和标准化程度。Scientific Data将建成一个可搜索的科学数据出版平台,同时积极寻求与相关出版商、数据仓储如Dryad、Figshare等之间的合作,从而以高质量、认证的科学数据实现开放、复用。Scientific Data并不是原始数据的存储方式,而是通过数据的描述信息的出版提供原始科学数据的分析以及追溯线索的提供。“数据描述”以“来源出版物”(Original Publication)的形式标明科学数据集与期刊文献之间的关联,并提供来源文献的URL链接,从而实现在线的一键式关联[150]