众多专门旨在科学数据管理相关工作和研究的专门机构,都将元数据作为重要的研究和实践内容。该工作小组自成立以来,为保证科学数据共享对元数据的基本需求,在元数据对科学数据共享的重要性的宣传,受控词表的推荐,元数据的收割、解释与映射等方面开展了研究与实践[69]。......
2023-11-22
为了集成海量的、异构的、多形态的数据,首先要将它们的描述统一起来,这就引出了对集成数据的元数据描述和管理的要求。
1.元数据
据Wikipedia显示,最初(1967年)在计算机系统中描述“meta data”(元数据)的是美国MIT的专家David Griffel和Stuart McIntosh。[9]
这个概念最初是指一种能够有效描述资料的方式,后来随着信息的存储、发布、传播等技术和手段的不断发展,信息具有了更大的分散性、变动性与多元性。关于meta data的讨论,再度引起了更多人的关注。
什么是元数据?目前,最常见的、比较宽泛的定义“关于数据的数据(data about data)”已经得到了普遍认可。这个定义勾勒出了元数据的一个本质特征,即元数据是数据的抽象。但由于这一定义过于抽象化、简单化,所以对它的认可只是表明从元数据的本质上达成了共识。事实上,人们对元数据的理解和认识还存在不少争议,迄今尚未形成真正统一的元数据定义。
英国图书馆与信息网络办公室(The United Kingdom Office for Library and Information Networking,UKOLIN)给出了元数据的另一种更为具体的定义:元数据是关于数字及非数字资源的结构化数据,并支持对这些资源的广泛操作,包括资源描述、发现、管理及长期的存储。[10]
而美国的Getty Research Institute从元数据的用途考虑,将元数据定义为:与信息系统或信息对象相关的数据,这种数据可达到描述、管理、法律规范、使用及保存等目的。[11]
此外,Wikipedia也对元数据做出了如下解释:
Metadata is a means to describe the data files retrieved primarily by electronic form.It provides information about a certain item's content,such as:means of creation,purpose of the data,time and date of creation,creator or author of data,placement on a network(electronic form)where the data was created,what standards used(ISO 9000),etc.[12]
尽管许多研究机构及专家学者们都从不同的角度对元数据进行了阐述,但从本质来看,有两点认知基本是一致的:一是元数据也是数据,是从原始数据中抽象出来的具有一定结构的数据;二是元数据具有对原始数据进行描述、标识、组织等作用。
1)元数据的存在形态
元数据的定义虽然还没有形成统一的认知,但元数据的作用和价值却一直受到人们的广泛关注。在各个领域中,元数据这个概念被广泛应用,各个层次的团体都按照特定的需求来开发适合自己的元数据。因此,现有元数据的存在形态是多种多样的。下面列举几种应用比较广泛的元数据存在形态。
(1)数据字典。
传统数据库管理系统中的数据字典(data dictionary)被定义为数据库中关于数据的数据,它不是(用户)数据本身。因此,可以说数据字典是一种元数据,它是用于描述数据库系统中各类数据的集合,在其中记录的信息就是元数据。但在传统数据库管理系统中,并没有明确规定数据字典中应该包含哪些描述信息,只要与系统有关的信息都可以保存在数据字典中。因此,不同数据库中的数据字典的内容也不相同。
(2)数据仓库中的元数据。
另一种使用比较广泛的就是数据仓库(data warehouse)中的元数据。与数据字典不同,数据仓库主要是将元数据进行分析处理。通过记录数据源元数据、数据仓库元数据以及数据处理元数据来支持数据仓库的开发和使用,有效地管理数据仓库,提高数据仓库的性能和利用率等。
(3)索引元数据。
这类元数据是互联网搜索引擎发展下的产物,专用于信息资源的索引,只描述信息的位置特征。从广义的角度来讲,这类元数据可以算作是一种未经结构化的元数据,特指从信息资源中自动抽取并索引的。例如,Yahoo®、Sohu®等搜索引擎产生的元数据。
(4)标准化的元数据。
这类元数据是按照特定研究机构发布的相关元数据标准生成的,通常具有较为完整的结构定义、内容定义和语义规范。它们利用严格的定义来精确、完整地描述信息资源。例如,都柏林核心(Dublin Core[13])就是其中一种元数据标准。此外,还有结构相对复杂的,如机器可读目录标准(MARC STANDARDS)[14]、编码档案著录标准(Encoded Archival Description,EAD)[15]等都属于这一类。
2)元数据分类
元数据广泛存在的多形态导致到目前还没有形成一个统一的分类标准。从基本功能、描述对象、记录格式、数据来源以及应用目的等角度都可对其进行分类。
(1)按照组织信息资源的功能分类。
元数据按照组织信息资源的功能可分成三类,即描述性元数据、结构性元数据以及管理性元数据。这一划分标准在数字图书馆领域达成了一定的共识。
●描述性元数据(intellectual metadata):也有文献将其称为知识描述性元数据,主要用于描述信息资源本身的特征、内容以及与其他资源的关系等。
●结构性元数据(structural metadata):主要用于描述信息资源的内部结构。相比描述性元数据,结构性元数据更侧重信息资源内在的形式特征。
●管理性元数据(administrative metadata):也有文献将其称为存取控制性元数据,主要用来描述数字化信息资源能够被利用的基本条件和期限,以及这些资源的知识产权特征和使用权限。
(2)按照所描述的对象分类。
元数据按照所描述的对象可分为如下10类。
●通用元数据。
●描述数字文献的元数据。
●描述数字图像的元数据。
●描述博物馆藏品的元数据。
●描述教育资源的元数据。
●描述特殊资源的元数据。
●描述关于数字信息长期保存的元数据。
●描述信息资源集合的元数据。
●描述知识组织体系的元数据。
(3)按照记录格式分类。
元数据按照记录格式可以分为以下几类。
●格式相对简单,自动从资源中抽取出来用于资源的索引。这类元数据包含很少的显式语义信息,不支持按域检索信息,例如,搜索引擎Lycos、Altavista、Yahoo等。
●有结构的格式,支持按域检索信息,为信息获取者提供资源的描述信息,供其选择可能感兴趣的检索目标,但不能捕获对象间的多元关系。这类元数据如Dublin Core、RFC 1807[16]和IAFA templates[17]等。
●有比较丰富的描述格式,可以完整地描述对象间的复杂关系,能满足专业领域的需要,例如,EAD、MARC、TEI[18]等。
无论怎样对元数据进行分类,都无法穷尽目前已有的元数据类别。这是因为元数据以其鲜明的特点和显著的作用被广泛应用于许多不同的领域,而不同的领域对其定位、用途等方面又存在着比较大的差异。因此,元数据的研究工作需要从特定的应用领域出发。
2.元数据在信息资源共享与交换中的基本功能和作用
作为一种基本的信息组织方法,元数据主要用来解决数据管理和共享的问题。它具有对资源进行描述的功能,在改进数据管理、检索和存储数据等方面发挥巨大的作用。尽管目前元数据在各应用领域的作用不尽相同,但总体来看,大致可以归为以下几种基本功能。
(1)描述功能。元数据的基本功能就是对信息资源进行描述,供用户读取以便了解自己所获信息是否是所需要的。因此,可以节约用户的时间和精力,也可减少网络中信息交换的浪费。
(2)检索功能。元数据是检索的基础。元数据将信息对象中的重要信息抽出,加以组织,赋予语义,建立关系,使得检索结果更加准确。因此,利用元数据进行简单、复杂或综合的信息查询,可以提高查询效率。
(3)定位功能。元数据包含信息资源的位置信息,由此便可确定资源的位置所在,促进网络中信息对象的发现和检索。(www.chuimin.cn)
(4)选择功能。根据元数据提供的描述信息,再结合使用环境,用户便可对信息对象做出取舍,选择适合用户使用的资源。
(5)评估功能。元数据可提供信息对象的各类基本属性,使用户在无需浏览信息本身的情况下就能对信息有基本的了解和认识,再参照有关标准,即可对其进行价值评估,以供用户参考。
对于需要交换和互操作的信息资源来说,如果缺乏足够的各自描述的信息,则很难进行交换和互操作,元数据可以提供发现信息资源的服务机制。元数据的价值就体现在其能够为信息资源的服务提供一种潜力,这种潜力能够引导用户提高快速发现资源的能力。元数据的作用主要包括以下几个方面。
(1)有利于信息资源的持久保存。信息资源是人类智慧的积累,需要长期保存,以便更多的人继承和使用。网络环境是一种开放的状态,信息会随着外部环境的改变而改变,一旦外部环境发生变化,就会引起信息的无法理解。这方面,元数据恰恰能够提供有关数据内容、使用情况等方面的信息,有助于重现数据的使用环境,使信息资源可以持久保存。
(2)有利于信息资源的组织和管理。在网络已经逐渐成为信息资源发布、交换、共享主要途径的背景下,如何有效地合理组织、管理这些分布的、异构的数据资源已经成为一个重要的问题。可以发挥元数据的作用,为这些信息资源建立一种有效的元数据服务机制,利用其实现资源的组织和管理。
(3)提高信息资源的检索效率。元数据能够提供信息资源在生产、存储、分类、交换等方面的信息,可以使用这些信息作为资源检索的辅助手段。利用这些元数据信息进行查询、检索,可以提高检索效率。
(4)有利于信息资源的共享和使用。元数据对信息资源的描述可以帮助人们更好地理解不同来源的信息,协助用户就信息的内容和质量是否满足需要做出判断。
3.元数据与本体
本体(ontology)也是一种用于描述、组织与管理信息资源的技术,在面向语义Web(semantic Web[19])领域扮演着重要角色。元数据与本体相比,两者既有共同之处,又存在着些许差别。
从W3C[20]对metadata和ontology描述功能的解释来看,两者都是用来描述“resource”(资源)的。尽管W3C强调这里的“resource”只是互联网上由命名域给出的标志符——URI[21]的信息资源。实际上,宽泛来讲,metadata和ontology的描述对象可以是现实生活中任何具有标识的“事物”。也就是说,只要是能够识别出来的“事物”,给它一个标识(例如名称、序号),它就成了可被利用的“resource”,就成了metadata和ontology可以描述的对象。从两者对“resource”描述的目的来看,都是为了“resource”的find(查找)、identify(标识)、select(选择)和obtain(获取),也就是信息资源的组织。
元数据为信息资源的描述提供了基本的属性集合说明,使信息资源具有基本的结构特征。但是,由于这些属性集合又来自不同的信息资源而存在着很大的差异,因此每个资源对象可以基于不同的目的,从不同的角度进行描述,可以有多套属性元素集合。随着标准化的发展,尽管Dublin Core等元数据标准将会越来越占据主导地位,但是永远不可能统一到仅有少数几种格式,这是因为许多领域内各部门、组织甚至个体仍然会有大量独立的元数据方案。要在网络环境下消除由这些独立的元数据方案引起的“信息孤岛”,就必须有某种程度的元数据间互操作用于解决不同元数据所引起的概念和结构的异构问题,这就需要在元数据之上建立一些机制来灵活地实现元数据间的互操作。最好的解决办法就是建立一种标准,这就用到了本体,可以将本体视为一种标准化、形式化、抽象化的元数据。本体为描述信息资源的属性集合定义了一套标准,首先是共享词汇(shared vocabulary),使用这些共享词汇来表示属性的概念及其之间的关系。把元数据放置于某个领域,形成对该领域信息资源一致性、形式化的描述,那么元数据就成了本体。
因此,可以说本体是在异构的元数据之间建立起的一种普遍联系,并使这种联系“机(器可)读化”;从另外一个角度来看,也可以把本体视为元数据的一种补充。本体用共享词汇来支持不同元数据之间的映射、转换、参照等功能,达到信息之间共享交互的目的。
概括起来,本体可以在以下几个方面对元数据进行有效的扩展和补充。
●元数据自身并不具有普适性,无法克服特殊性与一般性的矛盾。而本体作为一种抽象化的元数据,可以在领域层次上提供一种不同元数据之间的映射关系。
●本体可以为元数据的属性集合限定一套规范的术语,为解决不同元数据属性集合间的“歧义”问题提供了一种途径。
●本体在一定程度上也解决了元数据的灵活性和扩展性问题,在本体层次上对元数据的扩展,可以使元数据自身保持较为灵活的特点。
可以说,元数据和本体之间有着许多联系,而在各自使用的定位上又有不同。
下面来看看前面提及的以美国网络为中心的策略,其中元数据和本体扮演了重要角色。
以网络为中心的策略提供了一个基础来管理国防数据,其功能包括以下几方面。
●保证数据可见、可访问和可理解,无论何时、何地需要,以加速决策。
●使用元数据对所有的数据(无论是智能的、非智能的、原始的或处理过的)加以标记(tagging),以便企业/组织中已知用户或未预期用户都能发现这些数据。
●把所有数据放到共享空间,以便用户能存取,那些涉及安全、政策或其他受限的数据除外。
●围绕COI(communities of interest)组织,支持战斗人员、商务活动和智能领域。
显然,这里面对的是一个异构环境。在异构环境里,首先面临的是如何在异构环境下构建一致的数据模式问题。值得注意的是,这种数据模式是与应用领域有关的。而一个复杂的环境,如军事环境,应用多种多样,因此这里提出了COI的思想,不同的COI有不同的兴趣,面向不同的应用。
建立COI,强调的是相关数据的组织和维护,这些数据对COI来讲是可靠的。对COI来说,不存在标准的中心节点,协调和调整是其核心指导原则。
COI是由对某事有共同兴趣且需要共享信息的人组成的社团。COI的工作主要是,一起工作以解决影响社团/组织的问题。
这么做,就需要让其数据资产可见与可访问。如何做到这一点呢?我们可以:
●通过服务注册(如使用WSDL[22])、元数据注册和数据目录让数据资产可见。
●通过Web Services和共享MIME(multipurpose Internet mail extensions)类型让数据资产可访问。
同时,建立反映COI共识的词汇表。用户可以定义COI指定的词汇表与分类,即
●用词汇表来改进COI内和COI间的数据交换。
●通过分类来改进精确度。
用户还可以往DoD注册器里记录语义和结构数据,包括XML库,用于XML的模式、表单、领域集、样例等。
我们可以用图5.7来描述COI策略。
图5.7 COI策略
图5.7中,虚线箭头表示数据生产者的数据传输,实线箭头表示数据消费者的数据交换。
在DoD看来,COI为必须交换信息的由用户构成的协作团队,他们追求共享目标、兴趣、任务或事务过程,因此必须有共享的关于交换信息的词汇表,有一个建立一致数据模式的基础。
社团(如COI)提供数据的组织和维护体系,以便实现共同的数据目标。这样就涉及数据资产的元数据管理问题。如前所述,元数据是描述数据的数据,是一致数据模式的核心。元数据提供一种描述数据资产的基础手段。
数据资产的元数据要进行注册,因此需要一种注册机制,就像传统关系库里的系统表一样。
如何注册元数据,需要一个管理体系,我们可以用图5.8来表述元数据注册问题。图中的DDMS即DoD Discovery Metadata Standard(DoD元数据发现标准)的缩写,是一个核心成分。
为了统一管理各种数据资产,将涉及各种元数据,其中包括词汇库、用于组织数据资产的分类结构、接口说明和映射表等。GIG Enterprise Services(GES)提供以各种形式使用元数据的能力、发现数据资产的能力和充分理解所有数据和元数据的语义。从某种程度上讲,DoD的元数据注册是一个净化室,即把数据净化后按照元数据的要领和格式存储起来。
为了便于发现数据资产,用户要遵循DoD元数据发现标准,以把所有数据放入共享空间。DDMS的逻辑层次图如图5.9所示。
图5.8 DoD的元数据注册
图5.9 DDMS的逻辑层次图
有关分布式数据库技术的文章
众多专门旨在科学数据管理相关工作和研究的专门机构,都将元数据作为重要的研究和实践内容。该工作小组自成立以来,为保证科学数据共享对元数据的基本需求,在元数据对科学数据共享的重要性的宣传,受控词表的推荐,元数据的收割、解释与映射等方面开展了研究与实践[69]。......
2023-11-22
通用科学数据管理软件平台的元数据采用开源软件平台进行数据仓储与数据管理,是图书馆开展科学数据仓储建设较为普遍的方法。Dspace和Fedora采用DC元数据作为其元数据标准。图书馆在参与科学数据管理实践的过程中,随着工作内容的深入,其元数据实践也从基本的元数据标准与元素推荐,拓展到面向科学数据管理各流程的元数据整体方案的设计与实施。......
2023-11-22
一般将虚拟化软件栈分为四层。在这一层,数据管理体系结构拥有自己的操作系统、数据库服务器和数据库。2)层2:私有进程/私有数据库这一层开始在数据库服务器中实现逻辑虚拟化。这种虚拟化提供最小的应用间隔。现在,机器虚拟化已十分普遍。为了能运行在不同的硬件配置上,虚拟机管理器只提供有限的虚拟硬件成......
2023-10-28
科学元数据的描述框架基本由元数据标准、取值系统、概念/数据模型、编码系统和适应特定系统的内容标准即应用文档组成。图5-1科学元数据描述框架①元数据内容标准。科学元数据标准的元素设定为科学数据的描述方面奠定基础。科学元数据标准根据其元素功能可划分为不同的类型。......
2023-11-22
因而多数图书馆在提供科学数据管理计划协助起草的服务中,明确提出协助科研人员和科研团队选择恰当的科学数据元数据标准,以保证科学数据的有序化、标准化的组织。由此可见,在科学数据管理中,图书馆开展的元数据实践以科学数据相关的元数据内容标准和相关元素的选择与推荐为最主要的工作内容,开展元数据描述与组织工作的具体实施的图书馆较少。可见,元数据已成为科学数据馆员的必备技能。......
2023-11-22
与数据库安全系统打交道的人员可以分为两类:数据库管理员和普通用户。DBA要对安全负责,所以他(们)要创建授权规则,定义谁可以使用哪部分数据,以及如何使用。图13.1数据库安全系统由图13.1可知,数据库安全系统里存放着授权规则,在每次数据库存取时强制满足其规则。从完整性方面考虑,数据库安全可以包含以下两方面。1)设计阶段的数据库安全在设计阶段必须关注数据库的安全性。DBA负责处理整个数据库系统里的用户账号和口令。......
2023-10-28
图1-2文件系统阶段应用程序与数据之间的对应关系文件系统化阶段数据管理的特点①程序与数据分开存储,数据以“文件”形式可长期保存在外部存储器上,并可对其进行多次查询、修改、插入和删除等操作。②有专门的文件系统进行数据管理,程序和数据之间通过文件系统提供的存取方法进行转换。文件系统阶段数据管理的缺点虽然这一阶段较人工管理阶段数据管理有了很大的改进,但仍有很多缺点。......
2023-11-29
Oracle公司的OPS环境比一般的(单实例)Oracle环境复杂得多。不同结构下的OPS的实施略有不同。图14.23OPS体系结构为了利用这些特性,需要专业人员合适的设计以及恰当的手工配置。下面对有些关键问题进行简单讨论,讨论中会涉及一些Oracle系统专用的术语,读者可参阅Oracle公司的相关文档。DLM与Oracle进程一起工作并相互通信。DLM相关的初始化参数在每个实例的SGA[12]中分配必要的结构以处理消息机制、封锁与实例相关的Cache管理,这样就为各种Oracle进程操纵提供了基础。......
2023-10-28
相关推荐