首页 理论教育科学数据平台元数据的运用

科学数据平台元数据的运用

【摘要】:PURR针对科学数据的描述、管理与保存的需求,在对现有元数据标准进行综合考虑与评估的基础之上选择合适的元数据标准形成了一套针对科学数据的元数据实施方案。多数描述元数据元素通过作者在提交数据时填写的在线表单获取,由馆员对提交信息的正确性进行检查,进行确认后,生成的元数据记录保存在PURR的数据库中。

对于参与科学数据管理图书馆或其他机构来说,主要采取两种方式存储和保存科学数据:一是自建机构库、学科库或专门的科学数据库,提供科学数据的存储;二是选择与科学数据内容、学科或其他要求相契合的公共数据仓储。对于自建的机构库、学科库或科学数据库而言,其元数据的实施应考虑以下需求:所选择的系统软件如DSpace的系统需求、科学数据管理的目标需求以及科学数据本身的特点特别是学科属性等。

(1)DataStaR的元数据创新实践

为实现机构科学数据的管理并提供较为完整的系统服务,康奈尔大学图书馆以机构库为基础,构建了数据阶段型存储库(Data Staging Repository,DataStaR),由图书馆协助科研人员实现科学数据与元数据记录的长期保存和复用。DataStaR的元数据实践旨在不增加科研人员和图书馆员额外工作的前提下,支持科学数据的共享、出版。考虑到多学科科学数据的现状,DataStaR继承了多领域、学科的元数据标准,以满足不同学科领域研究人员的需求,弹性的元数据实践、便利的用户接口为大规模的数据共享、出版乃至元数据复用提供了可能[83]。在DataStaR中,只需键入或进行选择“数据集标题”“数据集拥有者”“元数据和数据获取许可”“出版物目标存储仓储”四个元数据元素,其他均可自动生成或默认。

DataStaR尝试对现有的元数据内容标准进行精简之后融入DataStaR系统中的本体集中,从而将离散的元数据标准融合在一起,方便数据提交者重复、组合使用元数据标准以生成元数据记录,无需重复键入信息。由于DataStaR融合了尽可能多样化的元数据内容标准,因此用户可以方便地生成符合不同元数据标准格式规定的元数据记录[84]。数据管理人员重视将语义网的原则和技术运用到其元数据实践中,以实现良好的互操作和机器处理[85]。在语义网技术的应用方面,DataStaR对Vitro进行了拓展,Vitro提供了可定制的系统前端,实现数据语义图表的检索和浏览,同时提供本体和实例的编辑接口[86]

DataStaR的元数据实践融合了语义网技术,实现XML与OWL的交互,集成了基于网络的RDF图表编辑、通过语义映射将现有的元数据标准、关联数据等进行集成[87],从而在实现本机构科学数据管理的良好运作的基础上,实现了用户最小负担和与其他数据仓储的最大交互的目标。(www.chuimin.cn)

(2)PURR的元数据标准融合方案

普渡大学是通过机构库来实现科学数据管理的机构典型。普渡大学图书馆在HUBzero系统基础上搭建了普渡大学科研仓储(Purdue University Research Repository,PURR)系统,将数据管理转化为机构知识库内嵌的基于科研过程的数据管理流程模块,从而成为项目组的科研管理平台[88]。PURR针对科学数据的描述、管理与保存的需求,在对现有元数据标准进行综合考虑与评估的基础之上选择合适的元数据标准形成了一套针对科学数据的元数据实施方案。本着描述数据集、识别数据拥有者和获取条件、生成稳健的长期保存元数据的目的和原则,PURR采用元数据编码与转换标准(Metadata Encoding and Transmission Standard,METS)作为封装标准,以都柏林核心元数据(DCMI Metadata Terms)作为描述元数据,以元数据对象描述机制(Metadata Object Description Schema,MODS)对数据拥有者、获取权限等进行描述,以PREMIS作为其保存元数据标准,从而形成了面向数据生成、描述与组织、使用到长期保存的元数据描述框架。

PURR在描述元素方面以DC元数据元素为主,最终确定项目名称、项目别名、标题、大纲、摘要、作者、标签、授权和发布日期等元素。多数描述元数据元素通过作者在提交数据时填写的在线表单获取,由馆员对提交信息的正确性进行检查,进行确认后,生成的元数据记录保存在PURR的数据库中。数据保存和出版确认将触发存档信息包(Archival Information Package,AIP)创建工具,综合PREMIS保存元数据、MODS标准以及BagIT格式等,实现PURR元数据记录的封装与保存[89]

DataStaR和PURR都是自建系统和平台以实现科学数据管理,但两者在元数据实践方面有所不同,DataStaR容纳尽可能多的元数据标准,以适应不同学科数据的需求,同时尝试应用语义网技术,而PURR则是通过选择较为普适性的描述元数据标准和适用于各种功能需求的管理性元数据,从而形成较为固定的元数据描述方案。