首页 理论教育科学数据管理与共享方法与工具研究

科学数据管理与共享方法与工具研究

【摘要】:科学数据管理方法研究研究者主要提出两种科学数据管理方法,即多层法和实用法。Roberts进一步探讨了电子实验室记事本和科学数据管理系统的整合方式[8]。目前,科学数据管理的实施主要借助科学数据管理软件及系统。现行数据库管理系统仍可运用于科学数据管理。云服务也逐渐成为科学数据管理的工具之一。关于本体和元数据在科学数据管理中的应用研究①本体在科学数据管理中的应用。

(1)科学数据管理方法研究

研究者主要提出两种科学数据管理方法,即多层法和实用法。Wood提出“多层法”,即研究者根据管理需求综合采用科学数据管理系统、实验室信息管理系统、电子实验室记事本、文档管理系统、统计过程控制系统等多种工具开展科学数据管理[7]。Roberts进一步探讨了电子实验室记事本和科学数据管理系统的整合方式[8]。Schmitt与Burchinal提出建设科学数据标识系统和变量标注系统以降低数据输入错误率、加强对软件代码的人工复核以确保数据管理系统的可靠性等建议[9]。Uribe和Macdonald提出“实用法”,即数据管理人员通过访谈、嵌入研究等途径,与用户保持互信关系,审慎分析、评估用户需求,了解其研究流程及数据利用情况,促使用户在研究早期就参与数据管理工作;注重听取用户对管理系统及数据服务的评论与建议,确保数据管理的每项行动都能切实服务于研究[10]。实用法强调用户参与科学数据管理的作用。

(2)科学数据管理工具研究

①科学数据管理系统研究。

目前,科学数据管理的实施主要借助科学数据管理软件及系统。Nay等介绍了基于文档的科学家个人数据管理辅助软件Lensfield,该软件具有操作简便、能识别同一文档的不同版本、自动记录管理进程、支持关联开放数据等优点[11]。Løvgreen对可视化科学数据管理软件MyCrystals的功能予以简介[12]。欧洲空间天文中心研发了针对其发射卫星传回数据的建档系统[13]澳大利亚的ARCHER项目小组相继研发出数据抓取和分析中间件DIMSIM、数据仓储ARCHER、数据管理和监控系统XDMS等一整套晶体学数据管理工具,并探讨了ARCHER与数据仓储ARROW和TARDIS结合的问题[14]。有学者还试图将数据管理系统嵌入科学工作流管理系统之中,如Liu设计了以数据为中心的科学工作流管理系统,可执行数据世系(Data Provenance)信息(即源数据信息和数据演化信息)的记录、协同工作环境的创建和交互式计算等任务[15]

美国地球数据观测网络(DataONE)在美国国家科学基金会NSF资助下研发了DMPTool,以协助研究人员创建一个通用的NSF数据管理计划并实现保存、预览、导出和共享功能[16]。英国数据管理中心(DCC)研发了数据管理工具DMP Online,用户可按其提供的模板及流程创建项目数据管理计划,以生命周期原理创建、管理、维护项目数据。美国联邦地理数据委员会(FGDC)推出了地理空间平台,提供一站式可信的地理位置数据,并可在电子地图上直接显示[17]

应用网格技术的科学数据管理系统也不断出现,如应用于地球科学领域的APPA[18]、适用于中小型科研机构的DIGS[19]、基于网格环境的数据管理系统GEDAS[20]以及能自动生成数据保存规则的分布式数据管理系统IRODS[21]等。

②基于数据库系统的科学数据管理研究。

现行数据库管理系统仍可运用于科学数据管理。Gray等探讨将数据库管理系统与文档管理系统集成以处理巨型文档[22]。瑞典乌普萨拉大学数据库实验室尝试将瑞士研发的数据存储和可视化工具ROOT嵌入其开发的多数据库系统AmosⅡ中,实现可视化数据检索功能[23]。Bernard等探讨用可视化数据探索技术改进数字图书馆系统,以管理非文本的原始科学数据[24]。Curdt等利用整合文档管理系统、数据库系统和网络绘图软件的数据管理平台ArcGIS Server,完成了地理空间数据的可视化组织[25]

③基于云服务的科学数据管理研究。(www.chuimin.cn)

云服务也逐渐成为科学数据管理的工具之一。Pallickara等证明利用网络运营服务商提供的云计算服务辅助科学数据管理是可行的[26]。加州理工学院的红外数据处理与分析中心在Amazon的云计算服务平台的基础上研发出ontage空间科学图像管理系统[27]。2011年第10届英国e-Science全体会议提出在科研、终端用户管理、应用程序设计方面利用云计算[28]。2012年DCC召开“数据管理与云”研讨会并形成草案,讨论了基于云技术的数据管理优势与挑战,总结出云模式下数据管理任务的适用性、适用模式、采用条件[29]

④对不同管理工具的比较研究。

研究者还对不同管理工具进行比较。如Heyward通过对药学实验室使用的数据管理工具的调查分析,认为当前和未来工作环境、现有设备状况、系统功能、机构经费等是选择管理工具的主要因素[30]。Nahma和Zhang创建由用户、功能、数据呈现和数据操作任务组成的评价科学数据管理工具可用性的UfuRT模型,比较了表格处理软件Excel和科学数据管理系统Clintrial的优劣,前者适于较小规模的数据管理,后者则更宜于较大规模的数据管理[31]

(3)关于本体和元数据在科学数据管理中的应用研究

①本体在科学数据管理中的应用。

本体和语义网有助于实现科学数据的有效整合、语义检索和可视化显示。Li等采用OWL语言定义领域模型,开发出专用于基因科学领域的数据管理系统PODD[32]。Fox等设计的VSTO数据模型同时也是可扩展、重用的本体库,使太阳物理学和地球大气物理学的数据筛选工作流得到统一[33]。Geisle等也推出了基于参考本体的临床实验数据管理系统[34]。Hu等提出一种基于语义的数据整合法,以OWL语言建立全局语义和局部语义,通过本体映射联结两者,使数据无需从原始数据源移入本体实例[35]

②科学数据管理元数据的创建。

Witt等认为元数据有助于不同程序环境下的数据识别,进而实现数据共享,并提出还需专门编写详简得当、清晰易懂的数据监护文档以帮助管理者和用户理解数据。其内容包括数据种类、产生过程、数据集实例、数据监护需求等[36]。Greenburg等指出可通过创建元数据应用文档和使用基于XML框架的元数据表现形式,实现科学数据的跨仓储访问[37]。Zhou等提出以结构元数据、语义元数据和本体为工具,完善对数据空间中跨区域和跨平台数据源的查询和检索功能[38]