首页 理论教育数字文献著录方式的演变及优化探讨

数字文献著录方式的演变及优化探讨

【摘要】:由于数字化文献本身的特点,以往的图书情报资料的整序方法面临重大的改变。由于数字文献的大量产生,文献信息已经进入了所谓的“后信息时代”。元数据是使数据充分发挥作用的重要条件之一。元数据对于促进数据的管理、使用和共享均有重要的作用。这15项元数据不仅适用于电子文献目录,也适用于各类电子化的公务文档目录及产品、商品和藏品目录,具有很好的实用性。(三)元数据在信息数据库的应用“都柏林核心”的15项元数据集

(一)自动搜寻并生成的著录信息

随着文献载体形态的变化,数字化文献大量涌现。由于数字化文献本身的特点,以往的图书情报资料的整序方法面临重大的改变。除了按内容来著录文献外,以形式特质来著录文献正日益受到重视。由于数字文献的大量产生,文献信息已经进入了所谓的“后信息时代”。揭示文献内容,整理冗余信息,解决文献信息的无序状态与人类特定需求的矛盾,成了包括图书情报系统在内的所有资料数据库的首要难题。

数字图书馆将资源分为元数据库和对象数据库。元数据是描述和管理对象数据的数据,对象数据是指数字化的文本、图片、声音、影像等数据。元数据要集中在数字图书馆中心的超大规模服务器上(或若干个通信条件好的镜像点上),对象数据库则可分布式存放在各地的资源点内。用户查询时,中心调度系统通过元数据调度各个对象数据库中的数据提供给用户使用。目前,各类数据库提供的信息资源虽然经过一定的标引,但其标引深度以文献条目为主,其查全率、查准率都有待提高。近年来,以形式特质来著录文献正日益受到重视。对形式特征的揭示,目前已有三种途径:对原来的文献揭示方法进行改革,如在MARC的某些字段增添能揭示网络信息资源特征的内容;创建一种新的文献揭示办法,如“都柏林核心”等;运用搜索引擎、搜索软件自动搜寻并生成相关资源的著录信息,然后供用户通过检索软件进行检索。

(二)“都柏林核心”和元数据格式

1.元数据

元数据被认为就是“有关数据的数据”,是专门用来描述数据的特征和属性的。它所包含的数据元素集就是用来描述一个信息对象的内容和位置,用户可以通过元数据来检索并获取所需的信息。元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览和数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。原始数据如果没有元数据,就很难有效地进行管理和使用。元数据对于建立空间数据交换网络是十分重要的,网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分结点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。

2.广义的元数据

制订者从传统的图书馆读者通过卡片目录查询、借阅所需图书的办法得到启示:在网络上检索电子资源,也可以借助于反映这些电子资源的目录信息。于是,“都柏林计划”的拟定者们参照图书馆卡片目录的模式,制定了15项广义的元数据。

其他责任者(contributor)。定义:对资源的内容做出贡献的其他实体。其他责任者的实例可包括个人、组织或某项服务。一般而言,用其他责任者的名称来标识这一条目。

覆盖范围(coverage)。定义:资源内容所涉及的外延或范围。覆盖范围一般包括空间位置(一个地名或地理坐标)、时间、区间(一个时间标识、日期或一个日期范围)或者行政辖区的范围(比如指定的一个行政实体)。推荐覆盖范围最好是取自于一个受控词表,并应尽可能地使用由数字表示的坐标或日期区间来描述地名与时间段。

创建者(creator)。定义:创建资源内容的主要责任者。创建者的实例包括个人、组织或某项服务。一般而言,用创建者的名称来标识这一条目。

日期(date)。定义:与资源生命周期中的一个事件相关的时间。一般而言,日期应与资源的创建或可获得的日期相关。

描述(description)。定义:资源内容的解释。描述可以包括但不限于以下内容:文摘、目录、图像的文字说明或者一个关于资源内容的文本描述。

格式(format)。定义:资源的物理或数字表现形式。一般而言,格式可以包括资源的媒体类型或资源的大小,格式元素可以用来决定展示或操作资源所需的软硬件或其他相应设备。例如,资源的大小包括资源所占的存储空间或持续时间。建议采用来自受控词表中的值。

资源标识符(resource identifier)。定义:在特定的范围内给予资源的一个明确的标识。建议对资源的标识采用符合某一正式标识体系的字符串及数字组合。正式的标识体系的实例包括统一资源标识符、统一资源定位符(URL)、数字对象标识符(DOI)和国际标准书号(ISBN)等。

语种(language)。定义:描述资源知识内容的语种。该标准定义了由两个或三个英文字母组成的主标签和可选的子标签来标识语种。例如,用“en”或“eng”来表示“English”,“akk”来表示“Akkadian”等。

出版者(publisher)。定义:使资源成为可获得的责任实体。出版者的实例包括个体、组织或服务。一般而言,应该用出版者的名称来标识这一条目。

关联(relation)。定义:对相关资源的参照。建议最好使用符合规范标识体系的字符串或数字来标识所要参照的资源。

权限管理(rightsmanagement)。定义:有关资源本身所有的或被赋予的权限信息。一般而言,权限元素应包括一个对资源的权限声明,或者是对提供这一信息的服务的参照。权限一般包括知识产权(IPR)、版权或其他各种各样的产权。如果没有权限元素的标注,不可以对与资源相关的上述或其他权利的情况做出任何假定。

来源(source)。定义:对当前资源来源的参照。当前资源可能部分或全部源自来源元素所标识的资源,建议对这一资源的标识采用一个符合规范标识系统的字串或数字组合。

主题和关键词(subjectand keywords)。定义:资源内容的主题描述。如果要描述特定资源的某一主题,一般采用关键词、关键词短语或分类号,最好从受控词表或规范的分类体系中取值。

题名(title)。定义:赋予资源的名称。一般而言,指资源对象正式公开的名称。

资源类型(resource type)。定义:资源内容的特征或类型。资源类型包括描述资源内容的一般范畴、功能、种属或聚类层次的术语。建议采用来自受控词表中的值。要描述资源的物理或数字化表现形式,请使用“格式(format)”元素。

纵观上述15项元数据,可以看出元数据的特点——简洁、规范。这15项元数据不仅适用于电子文献目录,也适用于各类电子化的公务文档目录及产品、商品和藏品目录,具有很好的实用性。

(三)元数据在信息数据库的应用

“都柏林核心”的15项元数据集,既包含了电子资源重要的检索点和超文本链接信息,也包含了对有关电子资源的描述性信息,它是读者通过目录检索阅览最终电子资源的有效手段与桥梁。其应用范围广泛,不仅涵盖图书馆,更涵盖政府机关、电子商务以及博物馆等众多领域的信息处理,它是数字图书馆采用的重要技术,其作用远远超过MARC格式。

传统的图书馆目录信息与都柏林核心元数据集有对应性,故图书馆的目录模式可以向其靠拢。这样做主要是因为,在许多文献已经实现电子化、数码化的情况下,图书馆的目录著录已没有必要那么详尽,采纳都柏林核心元数据集可以满足应用,并且节省了著录的人力、物力。而且MARC的有关字段是可以自动转为都柏林核心元数据的。向其靠拢有利于图书馆的文献信息参加网络环境下更大范围的统一处理与共享。

在发表的《中国可持续发展信息共享元数据标准》中,还制订了关于“元数据主题内容与适用范围”“参考标准”“术语”“元数据层次结构和性质”“元数据分级和特征”“元数据内容”“一级元数据内容”“二级元数据内容”“元数据扩展原则与办法”等准则。该标准的《主题内容与适用范围》,规定了中国可持续发展信息共享元数据的内容,包括可持续发展数据的标识、内容、质量、状况及其他有关特征。该标准可用于对可持续发展信息或其他信息数据集的全面描述、数据集编目及信息交换网络服务。该标准的实施对象可以是数据集、数据集系列和要素实体及属性等。

值得注意的是,该标准的《术语》给“元数据”等概念下了界定。例如,元数据(metadata)是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据;元数据元素(metadata element)是元数据最基本的信息单元;元数据实体(metadata entity)是同类元数据元素的集合;元数据子集(metadata section)是相互关联的元数据实体和元素的集合;数据集(dataset)是相关数据的集合;数据集系列(datasetseries)是执行相同产品规范的数据集的集合;信息交换网站(clearing house)是数据生产者、管理者和用户之间的分布式、电子连接的数据网络交换站点;数据志(lineage)是数据继承信息,包括获取或生产数据使用的原始资料说明、数据处理中的参数、步骤等情况及负责单位的有关信息等;引用文献(citation)是数据集引用或参考使用的资料、数据集、模型和文献等。这些规定,具有一定的开拓意义,为以后元数据格式的应用与统一做出了引导。

与此同时,国家信息中心数据库部提出《NREDIS信息共享元数据内容标准草案》,也是元数据在资料信息数据库应用的先导。在该草案的《导言》中,规定该标准的目的是为空间数据集提供一套通用的描述元素及规范,为国家国土资源环境与区域经济信息系统的数据共享提供信息支持。它可以用于对数据集的全面描述、编目及网络信息交换。该标准建立了一套用以描述数据集、数据集系列和实体属性的复合元素和元素,并确定了这些元素的定义、元素的值域及相互关系的规范。

在该草案中,各元素的选择是基于数据集的可用性、数据集的适用性、如何获取该数据集和如何使用该数据集这几个方面来考虑的。该标准中的元素针对不同的用户和使用目的具有不同的重要性;该标准的建立不仅为国家国土资源环境与区域经济信息系统的各有关部门归档、编目其数据提供标准规范,而且也可以服务于其他各部门、组织和个人,用以发布其空间数据。该标准的建立和应用可以极大地促进国家空间信息基础设施——空间数据交换中心的建设,加大和加深数据的共享应用广度和深度;该标准按层状结构组织元数据元素和复合元素。该层状结构的起始点为复合元素元数据,该复合元素由其他表示数据集不同方面特征的复合元素组成,这些复合元素又在各节中分别由其他复合元素和元素组成,其组成由导出规则确定。复合元素引用信息、时间信息、联系信息不能独立存在,而由其他复合元素引用。它还对复合元素、元素、日期、时间、经纬度、网址和文件名等的著录做了规定。对于文献的著录元素还规定了可选性条件。

草案中对元素的必选(mandatory)、条件必选(mandatory ifapplicable)和可选(optional)的规定如下:必选元素是必须给出的、必选的。对于条件必选元素,当数据集具有标准中已经定义的特征时必须给出。可选元素是否给出则由数据提供者自由决定。节和复合元素在可选性方面的优先级高于它们所包含的元素。如果数据集的提供者认为某一节或复合元素是适用的,那么从属于该节或复合元素的可选性也同时被说明为是适用的。该标准对元数据的产生规则也做了详细的规定。

关于在中国数字图书馆的资源建设中使用元数据的讨论已经开始,而对数字化图书馆的论述也在日益深入。数字图书馆技术的发展给使用者提供了良好的环境和工具,因此利用先进的技术对信息资源进行开发成为数字图书馆建设的核心内容。数字图书馆提供的信息资源与目前互联网上的信息资源不同。这主要是指:资源内容的组织方式不同;标引深度不同;检索效果不同。因此在数字化图书馆建设中,元数据格式的确定和引入具有重要意义。目前国家图书馆对资源内容标引的过程是:分析内容,给出主题分类,并使用基于SGML/XML开发的资源加工系统软件对资源内容置标。SGML标准包含三个部分:SGML声明、文献类型定义(DTD)和被置标的文件。SGML声明中指定了应用中的字符与定位符,DTD定义了标注结构的语法。由于数字图书馆资源库的内容、形式多样化的特点,许多DTD都要根据资源内容的结构及特点专门编写,由脚本的编写者提出要求,软件人员加以实现。

数字图书馆资源库中的元数据可分为三大类:描述性元数据、结构性元数据和管理性元数据。元数据抽取如果用人工来做是十分麻烦的,国家图书馆演示系统元数据的抽取由资源加工子系统的软件自动完成。同类型的元数据数据库研究还有《中国地理信息元数据标准研究》《NREDIS空间元数据管理系统的技术框架研究》《基于我国NSII关键技术研究的元数据标准内容体系》《中国生态系统研究网络元数据标准和操作工具》《中国生物多样性信息系统数据字典和元数据标准》等,已经向中国21世纪议程管理中心、国家科委、国家计划委员会、国家经贸委自然灾害综合研究组、中国科学院地理研究所、南京环境科学研究所、中国地质科学院国家海洋信息中心、中国科学院植物研究所等单位提供数据