首页 理论教育数字图书馆信息资源的重要性

数字图书馆信息资源的重要性

【摘要】:网络信息资源是数字化时代的新特征,是数字图书馆信息资源中不可或缺的重要组成部分。(二)数字图书馆信息资源的特征信息资源虚拟化:在网络环境下,传统的以实物为载体的信息传播方式发生变化,转化为数字形式,通过网络在全球范围内传播。数字图书馆信息资源检索在传统图书馆基础上发展,又有所不同。

信息资源是可供人们直接间接开发和利用的各种信息集合的总称,其基本组成部分为信息中的载体信息和主体信息。在数字化、网络化的信息环境的冲击下,图书馆信息资源已突破了传统的资源范畴,扩展、延伸为一个内容和形式更为多样的新型图书馆信息资源体系。图书馆中的数字资源,即电子资源,能被人们直接或间接开发和利用的各种信息的集合。

(一)数字图书馆信息资源的类型

网络环境下,数字图书馆的信息资源,不仅包括历史资料在内的资料数字化形成的资源,还有整理的其他资料,包括在线网上资料、广播及媒体资料、数字资源等。数字图书馆信息资源分为数字化的文献资源和网络信息资源两大类。

(1)数字化的文献资源。采用数字化技术将图文献资源包括以文字、图形、符号、音频、视频等方式记录的信息资源。根据其性质,可分为一次文献、二次文献、三次文献等。根据信息资源的属性又可分为图书、连续出版物、特种文献以及其他文献四大类。

(2)网络信息资源。网络信息资源是数字化时代的新特征,是数字图书馆信息资源中不可或缺的重要组成部分。网络信息资源形式多样,常用的有:网络数据库、网络出版物、动态信息等。根据网络信息资源的发布时间和效用,可分为网络出版物、动态信息、联机数据库等。

(二)数字图书馆信息资源的特征

(1)信息资源虚拟化:在网络环境下,传统的以实物为载体的信息传播方式发生变化,转化为数字形式,通过网络在全球范围内传播。

(2)信息资源多样化:数字图书馆采用数字化和网络技术,能够获取馆外乃至国外图书馆等信息资源,信息资源得到极大地丰富,形式也多样化发展。

(3)信息资源存储专业化:采用数字化技术处理信息资源,建立统一的信息存储格式,统一的元数据格式,统一的标准,使存储专业化。

(4)信息资源管理分布化:传统图书馆信息资源仅分布在实体馆内,而数字图书馆信息资源呈分布式存储。

(5)信息资源网络化:信息资源以数字化的形式存储在计算机中,用户查找不受时间、地域限制,能实现这个目标的只有网络。

(6)信息资源服务知识化:数字图书馆不仅能提供用户所需的文献资源,更能从深层次对信息进行挖掘,发现信息的潜藏价值,从而提高信息的使用价值。

(三)数字图书馆信息检索

1.数字图书馆信息检索分析

信息检索的出现,源于莫尔斯在1950年发表的《把信息检索看作是时间性的通讯》一文,文中首次提出了信息检索这个概念,认为“信息检索是一种时间性的通讯形式”。而1954年美国海军兵器中心图书馆利用IBM-701 型号计算机开发信息检索系统,标志着信息检索阶段的开始。

信息检索,广义上是指将信息按一定的方式组织和存储起来,并根据用户的特定需要找出所需信息的过程,即“信息存储与检索”。狭义上,仅指信息检索本身,即信息的查找过程。

图书馆作为最早采用检索系统的公共机构之一,最初采用的系统是由学术机构创建,后来由软件开发商创建。第一代产品中,系统基本上是实现老式技术的自动化,支持基于作者名和题名的检索。第二代产品中,增加的检索功能主要表现在支持主题检索、关键词检索和一些更为复杂的查询机制。第三代产品,目前正在开发过程中,重点是改进图形界面电子表格超文本和开放系统构建。数字图书馆信息资源检索在传统图书馆基础上发展,又有所不同。

2.数字图书馆信息检索相关技术与标准

信息检索是指信息的存储与检索,需要相关的技术来实现,相关的标准来规范。对信息资源进行规范的组织,运用技术对检索需求进行分析处理,都能够有效地提高信息检索的效率

(1)元数据。

元数据是关于数据的数据,即关于数据的结构化的数据相关服务。一个元数据构成一个信息资源的基本数据,成为检索系统的基本构成单元。传统的书目数据与数字资源的描述数据本质上没有不同,因此,元数据适用于各种类型的信息资源的描述数据。数字图书馆的元数据主要有以详细记录为目的的元数据——机读目录(MARC)和以发现为目的的元数据——DC。

第一,机读目录(MARC)。机读目录(MARC)是指以代码形式和特定结构记录在计算机存储载体上,能够被计算机识别并编辑输出书目信息的目录形式,机读目录(MARC)等编目体系是一些元数据描述的起点 M。机读目录(MARC)格式规定书目在数据机读介质的表示和标识方法,有机读目录的构成、各数据字段在机读介质上的总体安排与内容结构。

第二,元数据(DC)。由于网络搜索引擎在HTML 环境下只注重页面表示形式,不注重内容,显示能力和结构性描述差,无法深入语义内容。1995年3月,在柏林召开的第一届元数据研讨会上,由国家超级计算机应用中心(CLC 与NCSA)发起,52 位来自图书馆界和计算机网络界的专家共同研究,制定了对图书馆情报学界应用最广、影响最大的元数据项目——DC。目的在于建立一套描述网络电子文献的方法,实现网上信息的辨识、查询和检索。DC 包括15 个可以用来描述任何数字化对象的核心元素:7 个描述内容,即标题、主题、描述、来源、语言、相互关系和覆盖范围;关于知识产权处理的4 个元素:创作者、出版者、分销者和版权;为处理数字化对象的摘要,还有4 个其他类型的元素:数据、类型、格式和标识。元数据(DC)解决了搜索引擎结构过于简单,而机读目录(MARC)格式又过于复杂等问题,不需要进行专业化训练就能对网络信息资源进行恰当的著录,降低了编目的成本,提高了效率。但是,如果信息没有语义关系描述的基础,无法进行逻辑的推理,就依然不能被机器理解。同一词汇的语义过载或同义词汇的不完全描述都导致了检索效率的不尽如人意。

(2)Z39.50 标准。

Z39.50 协议是信息检索应用服务定义和协议规范的简称。它是一种网络协议,由一套用来控制和管理计算机之间通信过程中涉及的格式和进程的规则组成。它是一种开放网络平台上的应用层协议,使计算机使用一种标准进行通讯,支持不同数据结构、内容、格式系统间的数据传输,从而实现异构平台和异构系统之间的互联、查询。

信息检索服务描述的是客户端和服务端的交互活动,服务端与一个或多个数据库相连接。当检索方法、命令方式互不相同的双方不能检索对方数据库时,利用Z39.50 将需要转换的系统抽象模型映射成自己专用的模型,或反过来转换。具体来讲,就是客户端向服务端提出服务请求,将检索命令转换成符合Z39.50 标准的格式,把信息编成Z39.50 的应用协议数据单元,简称APDU,发送到服务端。服务端对APDU 解码,转换成自身系统的检索命令,检索后将结果以上述过程的逆过程发回客户端,实现异构系统之间的互联和访问。

(3)叙词表。

叙词表,即主题词表,来源于希腊语和拉丁语,指词库。词库包含了预编辑的在给定知识领域中的重要词汇和词汇中由同义关系派生出来的相关词汇集。叙词表以及某些规范化了的词汇表和结构,通常要比简单的词和同义词表复杂。学者福斯科特认为叙词表的基本目标是:为标引和检索提供标准化的词汇表或参照系统;帮助用户确定哪些语词适合查询表达式,根据用户需要,提供当前查询上位类和下位类的分类层次。叙词表的主要组成部分是标引词、词语之间的关联关系和编排形式。

(4)XML。

XML 是可扩展的量标语言简称。它是万维网联盟(W3C)组织定义的一种互联网上交换数据的标准。在(标准通用标记语言)SGML 基础上去掉语法定义部分,适当简化DTD 部分,增加部分互联网的特殊成分,可认为是SGML 的子集。XML 同(超文本标记语言)HTML 一样是一种元语言,能够以与SGML 相同的方式包含标记语言。XML 的语义标记既能够让人读懂,又能够让机器识别。在互联网上,服务器与服务器之间、服务器与浏览器之间的大量的交换数据,都要求对数据的内容和表现方式加以说明,XML 正是具备了这样的功能。XML 允许用户定义新的标签和更复杂的结构,指明可分析的层次对象模型,以及可扩展性、对文档元素标识性、拥有特定语法格式、促进文档结构化等特点,使其在信息检索中的地位越来越重要。