首页 理论教育科学数据共享的理论与实践

科学数据共享的理论与实践

【摘要】:关于科学数据共享类型的研究Wolf等根据共享方式的不同,将科学数据共享类型划分为以下6种[39]:①合作再分析。A必须提出关于数据保密性的条件以防止数据泄密。关于科学数据共享政策的研究按照政策制定的主体,可将科学数据共享政策划分为以下类型:①国际组织制定的政策。Green等为满足大规模异质科学数据共享的需要,设计了协作数据共享模型CDSS,2005年CDSS模型在美国宾夕法尼亚大学正式使用,这一具体的实践模型被称为Orchestra CDSS[51]。

当今科学研究正进入第四范式——数据密集型的科学发现,科学数据的管理与共享在科学发现与社会经济发展中的作用尤为凸显。

(1)关于科学数据共享类型的研究

Wolf等根据共享方式的不同,将科学数据共享类型划分为以下6种[39]:①合作再分析。当研究者B质疑A得出的数据结果时,两者共同在A的实验室开展合作研究。A提供数据,B提出数据再分析方法,以合著的形式发表新分析结果。②相互交换数据。A和B使用具有可比性的技术研究不同对象与群体,或A和B正在研究的主题相同时,进行数据交换。③单方面的共享。若B向A提出共享的数据是敏感的,B必须提出获取数据的合理理由,并在A的实验室开展工作。A必须提出关于数据保密性的条件以防止数据泄密。④数据共享项目。项目成员需共同分析数据。⑤公共数据档案。为避免泄露被调查者的身份信息而加密数据,并以档案形式保存,因身份信息已无法识别,数据无需经过机构审查委员会(Institutional Review Boards,IRB)的同意,可供使用者自由获取。⑥档案和研究数据中心的有限制获取。对于含有身份信息的数据,通过控制获取和使用的方式来限制使用,从而维护文档的保密性。

(2)关于科学数据共享政策的研究

按照政策制定的主体,可将科学数据共享政策划分为以下类型:

①国际组织制定的政策。

2007年经济合作与发展组织(OECD)颁布《公共资金资助的研究数据获取原则与指南》,界定共享数据的范围和定义,提出开放性、灵活性、透明性、法律一致性、保护知识产权、正式化职责、专业性、协作性、保证质量、安全性、效率、评价、持续性13条原则和指导方针[40]

WDS提出3条科学数据共享原则,即:WDS中的数据、元数据和产品交换是完全开放的;所有共享的数据、元数据和产品可以在最短的时间内以最低的成本获取;鼓励所有的数据、元数据和产品完全免费,或以不超过复制成本的费用应用到研究和教育[41]

此外,2008年英国信息系统联合委员会(JISC)发布《研究数据共享国际方法的比较研究》报告,对OECD主要成员国开展的研究数据共享计划进行比较分析,并对英国、JISC和其他组织开展的研究数据共享计划提出改进建议[42]

②科研机构、科研资助机构与出版社制定的政策。(www.chuimin.cn)

美国国家司法研究所将研究者返回结果数据与本机构的规定与研究合约、津贴和合作同意书挂钩[43]。NSF将研究者向其他科学家提供数据作为研究资助的一个必要条件[44]。美国的Sloan巡天计划声明可以分享数据给所有对天文感兴趣的人,并规定天文学家研究完成两年后,其数据即可向公众开放获取[45][46]

2007年英国研究信息网络的一份报告指出,许多研究资助机构针对资助对象在数据发布、共享、保存及管理方面制定相应共享政策[47]。英国研究理事会(Research Council UK,RCUK)认为科学数据是一种长期的公共性资源,数据开放共享能为科学探索提供更多有利机会,规定参与数据开放共享的组织与研究人员拥有资助上的优先权,并提出7条本机构关于科学数据的原则[48]

一些期刊出版社也制订相应的科学数据共享政策。如美国科学杂志规定论文在出版后,所有需要理解、评估的数据,以及支撑原稿结论的数据都必须对读者开放。《美国经济评论》也要求作者在期刊网站上不仅要提供数据集,还要提供数据处理的方式,以满足重复性实验的需求。此法目前已被其他许多经济学期刊效仿。

③著作权认证机构的政策。

美国著作权认证机构CC(Creative Commons)启动SC(Science Commons)项目,致力于探讨科学领域著作权认证机制问题,以促进科学家、大学与业界共同分享科学数据和知识[49],促使研究数据开放获取合法化。

(3)关于科学数据共享模型框架的研究

Rodrigo和Claudia曾提出一个基于DIKW模型理念构建的概念框架——SciFrame[50],该模型包括交互接口数据管理和信息管理3个层次。Green等为满足大规模异质科学数据共享的需要,设计了协作数据共享模型CDSS,2005年CDSS模型在美国宾夕法尼亚大学正式使用,这一具体的实践模型被称为Orchestra CDSS[51]

(4)科学数据共享中的阻碍因素

许多学者分析了阻碍科学数据共享的因素。Savage和Vicker认为阻碍科学数据共享的原因是对隐私权的担心、对未来出版机会的担忧、希望维持数据的排他性权利[52]。PARSE认为这涉及法律、数据滥用和数据类型不兼容等问题[53]。Tenopir等发现最重要的原因是时间不足,其次是缺乏资助,余下依次为无权利开放数据、无平台开放数据、缺乏标准、资助机构无要求[54]。Peters则分析阻碍原因是:研究者认为数据存档是有关部门的责任,与己无关;数据共享很少有奖励或报酬;数据仓储中未提供相应的共享服务;研究者不愿共享其数据成果;法律上尚未提出共享数据的要求[55]。Borgman等强调研究者没有从其他学者那里获得数据的意识和需求[56]。Kelne得出的阻碍因素是:技术上,存在计算机代码、机器嵌入预处理软件等问题;实践上,无统一形式的大量数据集,且缺乏公共数据库;法律上,在隐私权法、多作者数据共有权、材料转让协议以及数据集所有权等方面还存在问题[57][58]