首页 理论教育科研数据法律属性分析

科研数据法律属性分析

【摘要】:数据集所有权归属原则与作品的归属原则相似,即要综合考虑创建者、资助者以及影响权利归属的协议因素。

6.5.1.1 科研数据的来源

2010年2月,皮特·穆瑞-让斯特(Peter Murray-Rust)等科学家发布了数据共享的奔腾原则(Panton Principle),认为“开放科研数据”是指这些数据应该能通过因特网被任何人以任何目的自由地下载、复制、分析、再加工、导入软件,并且没有资金、法律、技术以及上网条件的障碍[130]。梅兰妮·凯沫芙(Melanie Chernoff)认为,开放科研数据的范围主要指公共资金资助的科研数据。公共资金通常来源于政府或非营利组织。因此,根据资金来源,数据可以划分为私人部门数据、政府数据和既不属于政府又不属于私人的公有领域数据三类。开放数据位于公有领域数据和政府数据之间,一般不涉及私人数据(见图6.12)。

图6.12 开放数据关系图[131]

政府信息“以开放为原则,不开放为例外”,因而政府数据开放和再利用是开放数据运动的主要领域。其次,公有领域的数据并不等于开放数据。参照公有领域作品的构成,公有领域数据大致包括知识产权法颁布前的数据、保护期届满的数据、不受保护的数据以及所有者弃权的数据等。理论上,任何人对于公有领域的作品都可以免费使用,包括复制、传播、表演、展览,以及衍生新的作品等。但实际上,公有领域的作品(含数据)并不一定可以免费获得。例如老地图、老照片、古籍等资料,即便属于公有领域,其实物保管者出于保护或收藏等目的会设置一些障碍,公众自由获取还是有难度的。此外,开放数据通常是指所有者采用许可方式授权或弃权的数据。因此开放数据只占公有领域数据的一小部分。第三,开放数据不涉及私人领域并不表示与私人领域毫不相干。首先,非营利组织如果保留数据的所有权则该数据应当划归私人部门。其次,开放科研数据倡导者的动机正是为了建立一种科研数据的授权或弃权机制,避免科研数据通过出版合同合法地被变成私人数据。

6.5.1.2 科研数据的类型

按照奔腾原则资助机构“开放知识基金会”的解释,这些科研数据是指在论文中发表或文后附带的原始实验数据,包括名为“附加信息”、“支撑材料”等与论文同时出版的数据,与实验相关的图表中的数据,捕捉和报告科学现象的图像,采集原始资料的视音频数据。从学科上看,奔腾原则主要面向自然科学工程技术,但并不排斥人文和社会科学。如果把观察、实验、访谈、计算等原始数据(及其元数据)看作“树根”的话,那么,在“树根”与“果实”(创新成果)之间还有许多作为枝干的中间层数据,例如衍生的数据、混搭(Mash up)的数据、关联的数据、可视化的数据、转换格式的数据等。奔腾原则主张开放原始数据是比较容易操作的,也是数据挖掘和再利用的基础。从源头开放数据可以简化中间层数据的法律关系,不失为一种务实的做法。(www.chuimin.cn)

这些数据的典型特征是数据集(dataset)。按照OECD的术语界定,数据集是指任何有组织的数据集合。这个概念颇具弹性,大至相当于数据库,小至一个事件(a case level)的数据集合,甚至是一段时间内相同结构的一组数据。数据集侧重的是数据自身的关联性、数字内容的机读性和可运算性。开放数据集可以避免主张开放数据库的误解和侵权风险,因而成为开放数据运动的对象。

6.5.1.3 科研数据的权利及归属

合法地获取、再利用、衍生、再传播以及长期保存科研数据集需要明确其归属以及复制传播等权利。关于数据集目前并无明确的法律规定,因此我们首先参考数据库的适用法规。《伯尔尼公约》将数据库归为文字作品,独创性的程度允许成员国自由裁定。《世界知识产权组织版权条约》(WCT)第5条将数据库作为汇编作品看待。实践中,各国对于数据库采取了不同的保护方式。例如,欧盟对于具有“独创性”的数据库给予著作权保护,不够“独创”的给予特别保护。中国、德国、美国的著作权法根据“独创性”原则给予数据库著作权保护。同时,WCT第2条规定:“版权保护延及表达,而不延及思想、过程、操作方法或数学概念本身。”因此,科研数据(集)是否属于著作权保护的“作品”要视具体情况而定。其判断标准有二:①该数据集是否属于作品;②是否具有原创性。

数据集所有权归属原则与作品的归属原则相似,即要综合考虑创建者、资助者以及影响权利归属的协议因素。就原始科研数据而言,无论其是否受版权法保护都不影响掌控数据的个人或组织对数据的所有权和占有权要求。尽管多数学者不知道科研数据的所有权归属,但澳大利亚的一项调查显示,43%的科研人员认为数据应当归自己,45%的人认为归属机构[132]。习惯上,科研数据由创建者保存,但发布、存储或共享数据则往往受到所在单位、资助者、出版者等多方面政策的影响。英国研究信息网(Research Information Net,RIN)认为主张所有权可能是基金或机构用以推动科研数据公开、实现潜在再利用价值的重要杠杆

瑙米·库恩等学者以英国地理学学科库GRADE为例分析了衍生数据的知识产权问题。第一步需要获得多个来源数据的权利许可。例如,要分别获得JISC与英国陆地测量部(Ordnance Survey,OS)的数据使用许可、开放存取许可,谈判购买商业图片资料,获取NASA免费卫星图片数据以及皇家著作权资料等。由于各种许可协议限制的范围可能不同,因此需要建立一个有效的协议管理系统。第二步要验证和抽取数据。在欧洲,地理信息数据库的验证要遵守数据库特别保护要求。不论“实质性部分”来源于原始数据库还是第三方数据库,未经授权使用“实质性部分”就会侵犯抽取权和再利用权利。经过多次抽取和混搭,衍生作品已经无法区分来源文件。参照版权法的规定,新生数据集(衍生作品)要继承原有数据的著作权条款,使用最受限制的协议。那么如果多个许可协议的期限不同,则遵照期限最短的许可协议,这会严重影响数据挖掘和再利用的价值。有的许可条件要求许可期满销毁衍生数据[133],因此只有从源头开放数据,数据挖掘和再利用技术才有用武之地。