首页 理论教育信息检索的基本概念:了解必备知识

信息检索的基本概念:了解必备知识

【摘要】:克劳德·香农认为,信息的多少意味着消除的不确定性的大小。二次、三次信息是知识的重组,也是信息检索的工具。这说明,人类的信息需要是由其基本需要所引发的。3.信息检索用户为满足其信息需要,必然会在某种信息需要的支配下采取相应的行动。在不同的环境中,用户的信息检索行为也表现出不同的形式。

1.信息的概念

美国科学家克劳德·香农(Claude E.Shannon),于1948年在著名论文通信数学理论》中把“信息”解释为“两次不定性之差”,即通信的意义在于消除某种不定性。该论文成为信息论诞生的标志。克劳德·香农认为,信息的多少意味着消除的不确定性的大小。信息传递、交流的目的就是要消除信息接受者对可能会发送出哪些消息的不确定性。简单地说,“信息是指有新内容、新知识的消息”。

信息是介于物质世界和精神世界之间过渡状态的东西,是人们用来认识事物、感知世界的不可缺少的中间环节。它贯穿于认知活动的始终,认知本身就是一个以信息为中介的信息运动过程。人类认识世界和改造世界的过程,是一个不断从客观世界获得信息,并对信息进行加工处理,形成新的认知结构,然后通过实践活动反作用于客观世界的过程。信息活动贯穿于科学决策的全过程,并渗透到决策过程的每一个环节。多学科的知识协作和发展需要信息的连接和融合。信息资源是人类借以对其他资源进行有效管理的工具,它在推动社会经济发展、促进人类社会进步等方面发挥着日益重要的作用。

人类的信息、知识的存在形式基本上有三种:① 存在于人脑的记忆中,它是属于人们主观精神世界的东西。它只有以一定的形式,通过一定的载体表达时,才能为其他人所感知。 ② 存在于实物中,如古文物、样品、样机、物品等。人们可以通过研究实物而获得某种知识。 ③ 用文字、图形、代码、符号、声频、视频等技术手段记录在一定的载体上,例如,刻在甲骨上、印在纸上、摄在感光胶片上、录在磁性载体上等。

信息加工的层次,可以将信息划分零次信息、一次信息、二次信息、三次信息。

零次信息:即未经记录、未公开、本身无法通过载体在较大范围内传播的信息。

一次信息:即以信息编制者的研究成果为依据而创作(撰写)的,未经情报加工的原始信息,又称原始信息。

二次信息:即对一次信息进行加工整理,使之简化或分类编辑之后所得的产物,或为了便于检索而利用一次信息进行编辑出版的产物。

三次信息:即根据某种需要和目的,把二次信息作为手段,对大量的一次信息加以全面系统的再度选择、分析和综合,编写成专指性内容和使用目的更为明确、效果更为直接的三次信息。

从零次、一次、二次到三次信息形式的变化反映了信息的集中和有序化的过程。从中也看到,零次、一次信息是知识的创造,也是信息检索的对象。二次、三次信息是知识的重组,也是信息检索的工具。正是利用了二次、三次这样的检索工具来检索所需要的零次、一次信息,来完成人们对信息的需要。

2.信息需要

所谓信息需要,就是指人们在从事各项实践活动的过程中,为解决所遇到的各种问题而产生的对信息的需求。美国心理学家马洛斯(A.H.Maslow)将人的基本需要划分为生理需要、安全需要、社交需要、尊重需要、求知需要、求美需要和自我实现需要7个层次。当人们在行动中遇到某些问题时,只有获得各种信息的支持才能使问题得到解决。这说明,人类的信息需要是由其基本需要所引发的。

对信息本身的需要是用户信息需要的最终目标。人们在从事各种社会活动的过程中,为了解决所遇到的问题,就需要了解情况,增长知识,及时做出有效的决策。信息需要从本质上说表现为人类对信息、知识的追求。由于信息本身具有诸多属性,用户对信息的需求也涉及许多方面,如内容上要求有助于特定问题的解决;类型上要求各种形式,如口头信息、文字信息、图形图像信息等;在质量上要求准确、可靠、完整、全面的信息;在数量上要求适度、能够有效消化吸收信息,避免“信息过载”等。

3.信息检索

用户为满足其信息需要,必然会在某种信息需要的支配下采取相应的行动。用户首先要采取的行动就是信息检索。

用户的信息检索行为既取决于个人的信息意识和信息能力以及用户的个性心理特征,也受用户所处的社会环境,特别是信息环境的制约。一般而言,用户总是属于某一社会组织的成员,因此,其信息检索行为必然要受到有关社会团体和所在社会信息环境的影响。在不同的环境中,用户的信息检索行为也表现出不同的形式。(www.chuimin.cn)

进入21世纪以来,信息随着知识的增长而急剧增长,这就是人们常说的“知识爆炸”。信息的广泛和信息需要的特定及专指,越来越需要一种能对巨量知识便捷提取的手段和方法,来完成某一范围知识的收集和利用。这种手段和方法的现代含义就是信息检索。在当今信息社会中,信息检索已经普及各个学科领域,甚至渗透到了普通民众的日常生活之中,为工作、生活、科研等获取信息已是人们基本的信息素质。

4.信息检索系统

信息检索系统是指按某种方式、方法建立起来的供用户检索信息的一种有层次的信息体系,是表征有序的信息特征的集合体。在这个集合体中,所收录信息的外部特征和内容特征都按需要有着详略不同的描述,每条描述记录都标明有可供检索的标识,按一定序列编排,科学地组织成一个有机的整体。

从检索服务的角度出发,再以数据库所含信息内容的表现形式作为分类标准,可以将信息数据库划分为三大类:参考数据库、源数据库、混合型数据库。

① 参考数据库(reference database):是指用户从中获取信息线索后,还需要进一步查找原文或其他资料的一类数据库。它包括书目数据库和指南数据库。

② 源数据库(source database):在欧洲也被称为数据银行(data bank)。它是能够直接为用户提供原始资料或具体数据的一类数据库。它包括数值型数据库、术语数据库、图像数据库、全文数据库、超文本数据库、新闻型数据库。

③ 混合型数据库(source database):这类数据库综合了上述两大类数据库的数据。

5.信息检索的关键技术——数据库技术

数据库(database,DB)是指为满足多个用户的多种应用需要,按一定的数据模型在计算机中组织、存储和使用的相互联系的数据集合。它由相关数据集合以及对该数据集合进行统一控制和管理的数据库管理系统(DBMS)构成。数据库是计算机中存放数据的仓库。对数据库的访问必须通过数据库管理系统。

数据库的实现依赖于计算机的超高速运算能力和大容量存储能力。随着社会的发展,人们已不再满足于简单的数据操作,而是进一步产生了使用数据的需要,即充分利用现有的数据进行分析推理,从而为决策提供依据。为此,数据仓库(data warehouse)、联机分析处理(on-line analytical processing,OLAP)和数据挖掘(data mining)等概念应运而生。

6.信息检索语言

检索语言(retrieval language)是检索信息所使用的人工语言。就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,用以对信息内容进行概括及其相互关系的概念标识体系。

检索语言由词汇和语法两部分组成。词汇是指登录在类表、词表中的所有的标识(分类号、检索号、代码等),是可识别的语词;语法是指运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。

在存储和检索过程中,检索语言起着重要的语言保障作用。它既是沟通信息存储和检索两个过程中信息标识和信息检索双方思路的桥梁,又是编制检索数据库中各种索引的依据。检索语言是为了达到信息标识和信息检索一致性的一种受控语言。