首页 理论教育开放型机构知识库著作权管理研究成果合作

开放型机构知识库著作权管理研究成果合作

【摘要】:表6.12IR收集和利用科研数据集的政策情况6.5.4.2IR收集与传播科研数据的权利管理1)知识库存储协议剑桥CCDC模式:剑桥大学晶体数据中心是JISC资助的4大专业数据知识库项目之一。

受学科传统的影响,科研数据的学科聚集倾向比较显著。分布式的IR较之集中管理科研数据的学科库没有太大的优势。但是,这并不能否定IR收集科研数据的意义。首先,IR收集科研数据一般会有质量控制。其次,IR收集的科研数据通常是某一项目或课题的有机组成部分,成果之间的关联有助于展示科研过程的全貌。目前,收集数据集的IR总数不多且主要集中在北美、欧洲和澳洲。其工作流程与处理学位论文相似,不过各学科处理数据的政策、所有权归属、知识库授权和用户使用协议的方式各异。

6.5.4.1 IR收集和传播科研数据的政策

在收集和传播科研数据的过程中,全球53家收集科研数据的IR多数没有明确的政策。其中,只有17家IR定义了内容政策,23家制定了提交政策,13家规定了数据集全文再利用和元数据再利用政策,10家明确了保存政策。全文再利用政策大多“禁止机器挖掘”,而元数据再利用政策大多强调非商业性使用(见表6.12)。

表6.12 IR收集和利用科研数据集的政策情况

6.5.4.2 IR收集与传播科研数据的权利管理

1)知识库存储协议

剑桥CCDC模式:

剑桥大学晶体数据中心(The Cambridge Crystallographic Data Centre,CCDC)是JISC资助的4大专业数据知识库项目之一。实际上,CCDC已经不是典型的IR而是学科库了。CCDC不限制作者,非本机构的作者也可以存储数据。其次,接收的数据非常专业。与dbGaP数据库相似,剑桥CCDC提供两种知识库存储方式:即“预出版”(pre-publication)方式和“私人交流”方式(private-communication to the CSD)。在“预出版”方式下,作者将数据集提交给知识库,同时向期刊投稿。如果论文发表,通过CCDC的标识符(CIF)就能够将论文与数据集相互关联并公开数据集。如果论文在1年内没有发表,CCDC会联系作者,咨询其继续发表还是将数据转为“私人交流”方式。如果论文在3年内仍未发表且无法联系到作者,则自动转为“私人交流”方式。如果选择“私人交流”方式,作者通过电子邮件提交作品时必须声明数据集不发表。剑桥CCDC模式采用了默认“作者”是权利人的原则,并且CCDC以“预出版”的方式推动数据公开具有一定的创新性。整体上看,CCDC的设计还是以保护作者的私人权利为主。

2)权利声明

南安普顿大学eCrystals模式:

英国南安普顿大学的eCrystals是收集本机构化学结晶学研究团队和英国工程和自然科学研究委员会(Engineering and Physical Sciences Research Council,EPSRC)国家结晶学服务中心结晶学数据集的半开放式知识库。2012年10月有记录790条,其中开放记录602条。从eCrystals的权利声明可以发现:①没有定义数据的权利归属;②定义了收集数据的学科要求;③明确用户可以自由验证数据或者重复试验过程,或者使用这些数据进一步开展研究。也就是说,没有明确限制商业性使用;④根据作者的要求,用户具有在未来研究中声明来源数据的义务;⑤规范了用户引用数据集的格式,即要包含作者、(作者)机构、知识库名称、DOI识别信息。

3)免责声明

科研数据在生成和收集的过程中存在很多偶然因素,验证成本比较高。其次,如果接收机构外部成员的数据,则机构内流程的验证体系也将失效。第三,不排除个别机构或个人有意发布虚假信息。因此,一些知识库发布了免责声明,不对数据质量承担责任。例如,美国Jackson实验室不担保软件或者信息的准确性;欧洲联合数据库UniProtKB不担保数据的准确性,也不担保能够获取全部数据[115]

4)奔腾原则与通用数据开放协议(www.chuimin.cn)

2007年,科学共享组织就倡导建立通用数据开放协议。除了前述的CC0许可,开放数据空间(Open Data Commons,ODC)还开发了《公共领域贡献与许可协议》(PDDL)。2010年开放科研数据的奔腾原则提出:原则一,发表数据时明确说明对数据的使用愿望和要求(及时表态原则);原则二:使用适用于数据的普遍认可的许可或弃权声明(适用数据原则);原则三,如果希望你的数据被有效利用及被别人补充充实,数据应该按照开放知识与数据定义所要求的那样来开放,特别是不要使用“非商业性使用”和其他限制性语言(完全开放原则);原则四:强烈推荐使用《公有领域贡献与许可协议》或CC0将已发表成果的数据置于公有领域,使之与科学共同体实施开放数据获取纲要和开放知识(数据)的定义相一致(协调原则)。

ODC开发的《公有领域贡献与许可协议》(PDDL)和创作共享组织开发的CC0协议的共同原则是促进法律的可预期性和可证实性、易于理解和使用、使用户的交易成本最低。两者的不同之处在于:①适用内容不同:CC0适合于任何内容,而PDDL专门针对数据和数据库;②“读者”不同:CC0同时具有机器阅读和人工阅读两种版本;③放弃的权利不同:CC0和PDDL均采用弃权方式解决了数据及其衍生品的复杂权利问题。CC0放弃所有权利,将内容(数据)完全置于公有领域;而PDDL仅涉及版权和数据库权利,在不允许放弃权利的法律环境下,采用许可使用的策略。比较而言,PDDL更适用于欧盟的法律环境,同时也考虑了数据的价值,提出保留权利人的专利权商标权的方案。

科研数据的产生方式、来源、验证、管理和维护具有明显的学科差异。其次,科研数据的形式和格式纷杂,需要不同的软件支持;第三,与论文、报告、图书等“作品”相比,科研数据缺乏完整性和可读性;第四,目前科研人员共享数据的意愿不高,科研评价体系和同行共享风气等动力机制尚显不足。因此,实现科研数据开放还有很长的路要走。

6.5.4.3 我国开放科研数据的权利管理

我国于20世纪80年代末参加了世界数据中心(World Data Center,WDC)项目,2002年启动了国家科研数据共享工程,2004年科技部等四部委联合发布了“国家科技基础平台”。同年,中国签署了OECD《获取公共资助科研数据宣言》。2006 年10月,我国政府官员在第20届国际科技数据委员会(CODATA)会议上表示,到2020年,80%以上的公益性、基础性科研数据资源将通过因特网面向全社会共享。

法规制度方面,2008年7月实施的国家《科学技术进步法》第65条:①国务院科学技术行政部门应当会同国务院有关主管部门,建立科学技术研究基地、科学仪器设备和科学技术文献、科学技术数据、科学技术自然资源、科学技术普及资源等科学技术资源的信息系统,及时向社会公布科学技术资源的分布、使用情况。②科学技术资源的管理单位应当向社会公布所管理的科学技术资源的共享使用制度和使用情况,并根据使用制度安排使用;但是,法律、行政法规规定应当保密的,依照其规定。③科学技术资源的管理单位不得侵犯科学技术资源使用者的知识产权,并应当按照国家有关规定确定收费标准。管理单位和使用者之间的其他权利义务关系由双方约定。2003年10月,科技部制订了《国家科技计划项目科研数据汇交暂行办法(草案)》,要求除涉及国家秘密和知识产权的科研数据外,国家财政投入的科研项目数据实行“汇交”制度。本质上,这是一种以“汇交”为原则、不“汇交”为例外的义务存储制度。该办法保留数据汇交义务人的“发表权、署名权、修改权、保护科研数据完整权、使用权等”,要求科研项目申请必须附加数据汇交计划书;数据管理部门负责审核数据维护数据库,并于接收数据的30个工作日内开放使用[136]。2008年,科技部启动了“973计划资源环境领域项目数据交汇”工作。2009年10月,科技部下发文件规定2009年(含)以后参加验收的项目必须先完成数据汇交工作,才能进行项目验收,从制度上保障了数据汇交工作顺利进行。

我国目前最大的学科库——中国西部环境与生态科研数据中心的知识共享平台SeekSpaces也制订了《使用条款和免责声明》:

(1)使用条款:①数据归属“原生产单位”;②引用原则是在相关成果显著位置明确注明数据原始来源,并添加“数据来源于国家自然科学基金会‘中国西部环境与生态科研数据中心’”;③仅限非商业目的使用;④不得转让(再授权);⑤保密数据须与中心另签署保密协议;⑥用户实名制;⑦用户必须遵守中华人民共和国计算机安全和互联网通信规定;⑧不得删除或修改资料的著作权提示信息;⑨保护用户个人信息。

(2)免责声明:①对服务变更、中断而发生的问题不负责任;②政府机构依照法定程序要求中心提供个人资料;③对第三方网站链接资料的内容不承担责任;④也不对本中心文献和数据资料的内容负责;⑤鼓励用户直接与“数据生产者”交流,鼓励验证数据。

与国外学科库声明相比,SeekSpaces的条款还是比较完善的。不过,笔者尚未见到其数据存储协议。

【注释】

[1]学习对象(learning object)是1994年维尼·霍德金斯(Wayne Hodgins)提出的概念。它突出了数字内容可以在多种模板下重复利用的特点,类似于乐高积木,可以随意拆装。

[2]图6.5与图6.8相比,博士生和硕士生的“出版意愿”都有所增强。原因之一可能是填答人基数略有变化,其二显示出被访人具有一定的随意性,但基本趋势没变。为尊重事实,本书如实记录。