在此政策环境下,期刊文献支撑数据的定向存储成为重要的关联服务提供途径。商业数据库对关联服务的参与商业数据库作为传统的科学文献,特别是科学期刊文献的重要存储和提供渠道,逐渐开始重视科学期刊与支撑数据之间的关联服务,其中Elsevier是较早尝试此类服务且较为典型的商业数据库商。......
2023-11-22
(1)国外现状
关联数据旨在将现有的Web文件网络变成Web数据网络。2007年语义网教育和推广工作组(Semantic Web Education and Outreach,SWEO)提出了开放关联数据(Linking Open Data,LOD)项目[107],极大地促进了关联数据的发展。LOD云图中的数据集涉及地理、生命科学、出版等很多领域,其中也包括很多科学数据集,如DrugBank、Chem2Bio2RDF、Uniprot、GenBank、PDB等。国外学者相关研究主要集中在这几个方面。
①发布的原则与机制。Kauppinen和Espindola提出了关联开放科学数据的4项要素[108]:
·基于关联数据发布科学数据、元数据、结果和来源信息;
·开源和基于网络的使用、验证和探索研究;
·高效的云计算和分布式计算;
·共享的法律基础。
Bechhofer等认为将科学数据发布为关联数据要解决科学数据的溯源、质量、信用等问题[109],即所发布的数据要保证其可重用性,并提出了一个将科学数据发布为关联数据的模型。Zappa等介绍了利用开源软件D2R将一个有关基因突变的关系型数据库发布为关联数据,并提供SPARQL端点查询的方法[110]。Gamble等创建了最小信息模型(Minimum Information Model)的词汇集和框架[111],为描述和评估最小信息清单(Minimum Information Checklists)中的数据提供实用的、可扩展的方法。(www.chuimin.cn)
②应用研究。Moss等提出了使用关联数据和语义网技术评估医学数据的质量与可靠性的方法[112]。Groza等使用了结合面向文档的元数据自动提取技术和基于关联数据的可视化技术的应用程序,将产生的文档无缝地集成到语义桌面环境中,从而减轻研究人员信息超载的负担[113]。Joerg等介绍了将研究信息系统(RIS)中的数据发布为关联数据并与LOD云图中数据链接的主要原则和技术[114]。Ansell构建了一个基于科研标准可用于上下文环境的关联科学数据的查询模型[115]。
另外,Glasson等分析了将个人卫生信息和行政数据发布为关联数据用于卫生研究的机遇与挑战[116],并强调要保护个人隐私。
国外关联数据围绕科学数据集成与共享开展了一些应用研究和实践活动。卫生保健和生命科学兴趣小组开发的关联开放药物数据(Linked Open Drug Data,LODD)项目[117]旨在关联不同来源的医药相关的数据集,如药物化学研究数据集、药物临床试验数据集等,以回答相关的科学和商业问题并支持药物发现。Bio2RDF项目[118]使用关联数据等语义网技术集成了40多种生物医学信息资源,并构建了生物医学数据的Mashup系统,支持生物知识发现。Linked Life Data是生物医学领域语义数据集成平台[119],该平台整合了PubMed、Uniprot等20多个数据源,有效地解决了数据异构问题。LinkedGeoData是由Agile Knowledge Engineering and Semantic Web(AKSW)研究组创建的开源社区项目[120],致力于将空间地理数据添加到语义网中,将开放街道地图(OpenStreetMap)根据关联数据的原则发布并与DBpedia、GeoNames等数据集链接。Chem2Bio2RDF是由印第安纳大学开发的系统,采用D2R开源软件集成了PubChem、KEGG、Compound等25个生物、化学、药物领域的数据集,为生物化学领域提供知识发现服务[121]。Linked2Safety项目由欧盟委员会资助,通过运用关联数据技术将不同来源的电子病历集成并提供一个语义互操作的框架[122]。
综上可见,国外关联数据围绕科学数据集成与共享的应用研究和实践活动主要集中在医学、生命科学、地理科学等领域,其中地理和生命科学应用领域相对广泛。
(2)国内现状
与国外相比,国内对关联数据的研究较晚,最早是在2008年12月上海召开的“数字环境下图书馆前沿问题研讨班”上,曾蕾和刘炜分别对关联数据技术进行了介绍。通过对相关文献调研发现,涉及将关联数据应用于科学数据的研究较少,见诸核心期刊的文章仅有3篇。沈志宏、刘筱敏等以科技文献和科学数据为例,提出了关联数据发布的标准化流程并详细分析了其中的关键问题[123]。沈志宏、张晓林与黎建辉认为由于关联数据语义描述能力强、低成本、开放自治的特征,能够很好地满足科学数据库对开放访问机制的要求[124]。游毅、成全提出了基于关联数据的科研数据资源共享模式,包括科研关联数据的创建发布和科研共享数据网络的构建两部分[125]。
目前,关联数据在国内还没有形成成熟的或具有影响力的实践或应用成果。只有中科院的科学数据库项目(Scientific Database,Chinese Academy of Science,CSDB)尝试应用关联数据构建关联网络OpenCSDB。目前,OpenCSDB软件框架的雏形已基本建立,制定了个体数据库的程序化访问,完成528个数据库及其子库的URI制定[126]。另外,其所开发的科学数据搜索引擎Voovle可为37家建库单位的124个数据库的科学数据提供语义搜索服务。
有关科学数据管理与共享的理论与实践的文章
在此政策环境下,期刊文献支撑数据的定向存储成为重要的关联服务提供途径。商业数据库对关联服务的参与商业数据库作为传统的科学文献,特别是科学期刊文献的重要存储和提供渠道,逐渐开始重视科学期刊与支撑数据之间的关联服务,其中Elsevier是较早尝试此类服务且较为典型的商业数据库商。......
2023-11-22
表2-1国内科学数据研究论文的高频关键词将48个高频关键词两两组合,统计其在582篇文献中共现的次数,形成48×48的共词矩阵,如表2-2所示。由于科学数据共享本身出现的频次远远高于其他关键词,因此,科学数据共享与其他关键词在同一篇文献中共现的概率也是最高的。例如,在因子3中的“关联规则”是负值,这表明关于科学数据监护与服务的研究可能涉及关联规则方面的问题,但还是比较少。......
2023-11-22
天文、地理、生物、医学等领域的科学数据管理自然科学领域研究中涵盖大量的实验和数据,一直存在大量的科学数据管理需求。人文社会学科领域的科学数据管理当前,人文社会科学数据的组织、管理也逐渐成为科学界研究的新焦点。......
2023-11-22
我们认为,该政策法规体系侧重于科学数据的共享,即由政府部门及其下属科技机构在长期观测、监测中所收集和获取的数据信息的共享。这部分数据的共享应通过相关法律法规作出明确规定并由中央及地方各级政府部门加以公开。②我国科学数据管理与共享政策体系构成。[97]图4-2我国科学数据管理与共享政策法规体系我国国家层面的科学数据管理与共享法律应包括《科学数据共享法》《信息公开法》《保密法》《隐私保护法》《知识产权法》等。......
2023-11-22
众多专门旨在科学数据管理相关工作和研究的专门机构,都将元数据作为重要的研究和实践内容。该工作小组自成立以来,为保证科学数据共享对元数据的基本需求,在元数据对科学数据共享的重要性的宣传,受控词表的推荐,元数据的收割、解释与映射等方面开展了研究与实践[69]。......
2023-11-22
美国、英国、澳大利亚等国的高等学校纷纷制定本校的科学数据保存政策。肯塔基大学在其数据保存政策中明确规定肯塔基大学拥有产生于学术活动、资助活动、教学部门、公共服务部门、行政部门的数据[82]。纽约大学的科学数据保存政策中对于PI的职责有详细的阐述:①监管学校科学数据的鉴别、收集、管理与保存。⑤遵守资助机构关于数据获取和保存的要求。......
2023-11-22
期刊文献与科学数据之间的关联服务的实现需要在科学数据和期刊资源的资源描述和组织阶段的具体实现和支撑。在科学数据的封装、描述、组织和存储中,识别符的赋予成为重要一环。设定特定元数据元素除了行文中用明文表达或者URL链接方式实现科学数据与期刊文章之间关联之外,期刊、科学数据的元数据描述中的操作成为期刊文献与科学数据关联内在的实现途径。......
2023-11-22
科学数据管理方法研究研究者主要提出两种科学数据管理方法,即多层法和实用法。Roberts进一步探讨了电子实验室记事本和科学数据管理系统的整合方式[8]。目前,科学数据管理的实施主要借助科学数据管理软件及系统。现行数据库管理系统仍可运用于科学数据管理。云服务也逐渐成为科学数据管理的工具之一。关于本体和元数据在科学数据管理中的应用研究①本体在科学数据管理中的应用。......
2023-11-22
相关推荐