首页 理论教育科学数据管理与共享:元数据描述框架

科学数据管理与共享:元数据描述框架

【摘要】:科学元数据的描述框架基本由元数据标准、取值系统、概念/数据模型、编码系统和适应特定系统的内容标准即应用文档组成。图5-1科学元数据描述框架①元数据内容标准。科学元数据标准的元素设定为科学数据的描述方面奠定基础。科学元数据标准根据其元素功能可划分为不同的类型。

科学数据资源是科学研究的重要产出,也是后续研究展开的前期基础,为了便利科学数据的存储、共享、管理和再利用,构建并完善科学元数据描述框架是科学数据组织和管理的基础性条件,也是保证科学研究持续发展的重要工作。科学元数据描述框架(见图5-1)由基础元数据标准体系、取值系统,适用于特定系统的应用文档、处理人—机可读的语言工具以及顶层的元数据功能构成,此描述框架在系统的整体环境约束下形成,既适应系统环境对科学元数据的要求,同时支撑整个系统的正常运作和长期发展。科学元数据的描述框架基本由元数据标准、取值系统、概念/数据模型、编码系统和适应特定系统的内容标准即应用文档组成。

(1)基础层

对科学数据进行描述和组织,元数据标准或机制以及取值系统是基础,规定了科学元数据描述对象的分类、规范性描述取值、需要描述的关系等内容。

图5-1 科学元数据描述框架

①元数据内容标准。

元数据内容标准是对科学数据不同描述方面的规范,通过元数据元素体现对科学数据的描述,是对科学数据进行元数据描述的基础。现有的科学元数据标准较为丰富,既有综合性的科学元数据标准,又有面向特定学科领域或特定系统的学科性科学元数据。科学元数据标准的元素设定为科学数据的描述方面奠定基础。北卡罗来纳大学图书馆认为应当从通用信息(标题、作者、日期、资助、关键词、识别符、范围)、获取信息(获取权限、版权)和技术信息(文档格式、文档列表、文档数量)三个方面对科学数据资源进行描述[34]。科学元数据标准根据其元素功能可划分为不同的类型。

②元数据内容标准类型。

传统意义上的对科学数据内容、作者等信息进行描述的元数据标准并不能完全包含科学数据描述的全部所需元素,科学元数据根据其元素描述科学数据的不同方面而隶属不同类别。对元数据标准的类型划分有以下几种观点,Lagoze等将元数据划分为描述元数据、术语和条件元数据、管理数据、内容排序元数据、保存元数据、关联/关系元数据、结构元数据7类[35];Gilliland等在专著《元数据导论》(Introduction to Metadata)中将元数据划分为管理元数据、描述元数据、保存元数据、技术元数据和适用元数据五类[36];Greenberg则将元数据划分为发现元数据、管理元数据、技术元数据、智力应用元数据[37];NISO[38]、美国国会图书馆(Library of Congress,LC)[39]都将元数据划分为描述元数据、结构元数据、管理元数据3类,NISO认为管理元数据包括了权利管理和保存元数据。对于科学数据的全面描述,既可通过不同类型科学元数据标准的整合完成,也可通过一部完善的科学元数据标准实现。

当前学科/领域描述元数据和综合性元数据兼具,同时不同的科学元数据标准具备的数据描述功能和层次不同。从科学元数据的功能来看,传统的元数据标准类型划分同样适用于科学元数据。科学元数据的标准可划分为描述(Descriptive)元数据、结构(Structural)元数据、管理(Administrative)元数据和技术(Technical)元数据,其中管理元数据包含了利用元数据和保存元数据的信息(见表5-1)。

表5-1 科学元数据标准的类型和功能

③元数据标准的元素选择。

不同的元数据标准从多个角度选择不同的元数据描述元素,不同的元素从功能方面考虑应该归属于不同的元数据标准类别。根据Lide的观点,可将科学数据划分为实验性数据、发现性数据、统计性数据[40],对不同类型的科学数据同样需要从不同角度进行描述。Matthews等认为,在科学元数据领域,最重要的描述实体包括与调查相关的对象(如研究或项目)、调查者、主题、出版物、样本、数据集、数据文档和参数等[41]。通常在进行元数据标准的选择和元素的选择时,多以对科学数据的可检索性为最重要的目的,因此考虑最多的是描述型元数据,但其他类别的元数据标准元素也不可获取。

④取值系统。

取值系统也可称为科学数据描述的权威文档,是科学元数据进行描述时,不同的元素可参考和可取值的规范性词表等,当前最具操作性的包括受控词表、本体等规范性的词表和取值来源,此外还包括了用户生成内容。受控词表是传统元数据进行信息描述时最通用的取值系统,在科学元数据的描述中,受控词表同样是最具操作性的取值系统,特别具有学科针对性的受控词表如医学领域的医学主题词表(Medical Subject Headings,MeSH)、生物学领域的国家生物信息基础设施生物多样性叙词表(National Biological Information Infrastructure Biocomplexity Thesaurus,NBII)等为相关领域科学数据的描述提供了大量可用的规范权威文档。本体词表逐渐成为科学数据描述的取值系统,如书目本体(The Bibliographic Ontology,BIBO)被应用于对科学数据所关联的文献资源的描述,而用户生成内容本身质量控制的有待完善,其作为取值系统的操作有待研究。

(2)应用层(www.chuimin.cn)

科学元数据标准、取值系统等都是科学元数据描述的基础,因此缺乏针对性,因此需要特定的应用文档以适应特定系统和环境的需求,同时为科学数据描述的执行者提供操作指南,在此基础上,需要特定的语言或工具实现元数据描述记录的生成、保存和互操作等工作。

①应用文档。

元数据应用文档或者应用规范是为适应特定的系统和环境而建立的可操作性的文档,从多样化的元数据标准(命名空间)中吸纳并集成数据元素,从而适应特定的系统需求。通过应用文档可以方便元数据执行者和命名空间管理者理解元数据标准之间的关系以及利用和完善元数据标准的方法[42]。根据都柏林核心元数据应用规范新加坡框架(The Singapore Framework for Dublin Core Application Profiles),应用文档基本包括系统功能需求、领域模型、描述元素集、元数据描述规范和准则、元数据编码语法规范以及取值系统的界定等内容[43]。完善的系统功能需求应当比较全面地反映科学数据系统或科学数据仓储创建者、元数据记录的创建者、科学数据的使用者等对元数据的需求,同时便于数据系统或仓储对科学数据的组织、保存、检索和复用等功能。领域模型通过正式或非正式的框架形式规定最基本的实体元数据及其关系,是特定科学数据系统或仓储进行元数据描述的基本框架,规定了科学数据的不同方面以及不同方面之间的关系。描述元素集对元数据记录中的描述与陈述进行结构性的规范和约束。此外,使用指南指导如何应用该应用文档以及属性如何在应用环境中得以适用。而编码语法规范定义元数据描述记录的语法规范。

英国图书馆网络工程事务所(UK Office for Library Networking,UKOLN)对科学数据应用文档进行研究,认为当前存在多种类型的科学数据应用文档,通过对若干科学数据应用文档以及其数据模型的分析,指出严谨的、可通用的科学元数据应用文档应当考虑广泛的应用性同时,考虑应用实例的需求,而简单的数据模型则更具实用性[44]。Nikos Diamantopoulos等以DC元数据应用规范为范本,研究建立针对农业数字资源的元数据应用规范[45];Nikos Manouselis等通过对比联合国粮食及农业组织(Food and Agriculture Organization,FAO)的Ag-LR应用文档和希腊雅典大学农业信息学实验室ReGov LOM应用文档以及不同应用文档在数据仓储中的运用情况,提出恰当的元数据应用文档可以提升资源检索和获取的效率,同时可以增强不同仓储之间的互操作[46][47]。Norm Friesen等以澳大利亚和加拿大为例,探讨教育资源的科学元数据创建经验[48]。生物学领域的Dryad科学数据仓储,在DC元数据的基础之上,结合DwC元数据,以XML为主要语言/工具,形成了较为完善的元数据应用文档,被称为科学元数据的“良好实践”[49]

科学元数据的应用文档应当考虑科学数据或科学数据文档以及与其相关的文献资源两方面的描述和组织。在多样化科学数据应用文档并存的情况下,具有更为广泛适用性的应用文档的探索以及现有不同科学元数据应用文档之间的互操作需要解决。与此同时,随着科学数据作用越发重要,其与相关资源的关联关系也有待揭示,因此需要对领域模型进行发展和完善,从而满足数据的存储、数据出版前后的评价、科学数据通过不同渠道进行开放存取乃至整个科学研究生命周期对于科学元数据的需求。

②语言和工具。

语言和工具是实现科学元数据对科学数据进行描述的模式语言,是生成科学元数据记录的编码标准和规范。当前多数科学元数据通过XML通用语言来实现其语法表达。在地理科学领域,Ruixin Yang等将XML技术运用于科学元数据的呈现、存储、检索和交互,通过分布式元数据服务器(Distributed Metadata Server,DIMES)对XML格式元数据的收割确保元数据记录的树状语义结构,实现在分布式环境中的科学数据的存储与共享[50];Scott Jensen等认为,XML格式的科学元数据记录有利于实现数据复用,同时有助于科学元数据的管理,在此基础上研究了XMC Cat元数据数据库,用以实现科学元数据的存储、查询[51]。Uwe Schindler等以XML格式元数据记录为基础,建立通用且弹性的地理元数据门户,以实现对XML格式元数据记录的收割,同时可实现元数据记录的检索[52]

随着语义网技术的发展,越来越多的研究和实践将视角转向语义技术在科学元数据中的应用。Silvia Stefanova等认为,语义网技术是科学数据、科学信息和知识交换的通用媒介技术,对科学数据提供元数据描述的标准,通过RDF、OWL等工具可以对元数据属性的结构和内容等进行描述以形成本体[53]。Satya S.Sahoo等认为,科学元数据是有效管理科学数据的来源(Provenance)信息,而语义来源信息则是以领域本体为基础,实现软件对科学数据的正确理解的媒介和工具,语义框架包括了表达性的信息和领域本体两部分[54]

(3)元数据的生成与管理

元数据的生成、存储和管理是科学元数据描述框架的具体操作层,实现科学元数据记录的生成、组织、保存和管理等工作。

①元数据记录生成。

在应用文档/规范的指导之下,可实现特定系统、数据仓储或项目平台的元数据记录生成。科学元数据记录的生成的方式有多种,既可自动生成也可通过人工手动输入生成,还可通过同时采用元数据自动收割系统与取值系统的方式实现元数据记录的收割获取,当前以半自动化的元数据记录生成方式为主。科学元数据元素具有区别于传统文献资源的特殊性,如科学数据所涉及的作者可能包括科学数据所属文章的作者及引用特定科学数据的作者和科学数据的生产者,文章的作者可能是科学数据的生产者也可能是科学数据的引用作者,在进行元数据记录生成中需要进行特殊考虑,如设定两种类型的作者元素或者通过人工处理的方式以保证元数据记录的准确性。

②元数据的管理。

元数据记录生成或者收割之后需要进行完善的存储和管理。科学元数据记录并不是一次生成之后就一成不变,科学元数据记录还因为科学数据的历史沿革等情况而有所变化,因此需要对元数据记录进行妥善的管理。此外,对科学元数据的管理还包括元数据功能需求满足情况的调查与反馈、元数据元素的调整、元数据应用情况评价、元数据的功能拓展等。如DAMES项目系统既可对社会科学数据集进行元数据记录的生成,又可实现对元数据的利用、转换和检索等操作[55]。除此之外,越来越多的元数据管理产品和系统问世,较为典型的如大气和生态科学领域的联合式元数据收割与检索工具Mercury。Mercury由美国国家航空航天局(National Aeronautic and Space Administration,NASA)、美国地质调查(USGS)和美国能源部(DOE)共同开发,建立在开源软件基础之上,对不同元数据格式的时空数据提供联合检索接口[56]。Won Kim等认为元数据是对科学数据的语义进行描述的工具,当前元数据管理系统能够满足基本的元数据管理的功能需求,但其针对性和适应性方面仍需提升[57]

科学元数据是科学数据进行描述的重要工具,科学元数据描述框架是实现元数据对科学数据描述和组织的指导性框架。科学元数据描述框架需要在特定的系统环境和项目需求之下发挥作用,同时需要进行进一步的具体化和适应性的充实与完善,从而实现对具体项目和数据仓储的建设。