首页 理论教育东南亚国家网络信息检索导论:快速定位网络信息资源

东南亚国家网络信息检索导论:快速定位网络信息资源

【摘要】:它是通过网络生产和传播的一类电子型信息资源。了解并掌握网络信息资源的特点和类型,有助于我们更好地利用网络信息资源检索系统。网络信息资源的分类根据网络传输协议划分,网络应用层的协议主要有TELNET、FTP、HTTP等。①基于HTTP的网络信息资源基于HTTP的网络信息资源是网络信息资源中应用最广泛、最为常见的一种。

1.网络信息资源

网络信息资源是指以数字化方式记录并存储在网络计算机的存储介质和其他通信介质上,通过计算机网络进行传递的所有信息的总和。它是通过网络生产和传播的一类电子型信息资源。随着计算机技术的发展,许多原来以纸介质存储的文献,都通过录入或扫描的方式形成电子文件,供用户使用。这使得网络信息资源的可利用性越来越高,也逐渐成为人们获取信息资源的首选。

由于网络技术的快速发展,网络信息资源相对传统信息资源而言,除了保持传统的信息组织方式之外,还在数量、结构、分布、传递手段等方面呈现出很多独特之处。了解并掌握网络信息资源的特点和类型,有助于我们更好地利用网络信息资源检索系统。

(1)网络信息资源的特点

①信息量大、种类丰富

互联网的开放性结构和信息发布的自由性,使得全世界各地的用户,只要能连上互联网就能在互联网上制造信息。从一定程度上,这也导致了互联网信息的爆炸式增长。网络信息资源从内容上来看,几乎覆盖了各行各业的知识,并且表现形式多样,有文本、图像、视频、表格以及它们的多种组合等。从存储形式上来看有文件、数据库超文本等,从文件格式上来看就更是数不胜数。大信息量和丰富的种类使得网络信息资源几乎可以满足网络用户的各种需求,但这也给网络资源检索制造了更大的困难,对计算机技术、网络技术、检索技术等也都提出了更高的要求。

②信息时效性高、传播范围广

网络信息资源更新的速度很快、时效性很强,这一点我们可以直观地感觉到。例如刚刚结束的体育赛事,我们可以在几分钟内(甚至更短)通过互联网得知其比赛结果。而如果从电视新闻渠道获得比赛结果,则要相对滞后一些。这一点对于了解时事动态、股市信息等显得尤为重要。另外,网络的互联,使得这些信息资源能在很短的时间内传播到世界各地,真正做到了“秀才不出屋,能知天下事”。

③信息分散、难于管理

网络信息资源存储在联网的计算机上,这使得信息十分分散。尽管可以通过超链接将信息关联在一起,但是随着超链接的增多,其本身的混乱性就体现了出来。另外,网络信息的发布有很大的随意性,缺乏有效的审核机制,这就使得网络信息资源的价值差异很大,大量垃圾文件渗入其中,难于管理,也增加了信息获取的难度。

(2)网络信息资源的分类

根据网络传输协议划分,网络应用层的协议主要有TELNET(远程登陆协议)、FTP(文件传输协议)、HTTP(超文本传输协议)等。

①基于HTTP的网络信息资源

基于HTTP的网络信息资源是网络信息资源中应用最广泛、最为常见的一种。目前还有一种基于安全模式的HTTP协议,即HTTPS协议,其访问方式和HTTP方式相同,此处将他们视为一种协议。WWW或WEB信息资源是基于HTTP的网络信息资源中最主要的一种形式,它是建立在超文本、超媒体技术的基础上,将文字、图像、视频和声音等元素集中在一起,以网页的形式存在。用户通过在浏览器中输入网址,登陆到相关网站,然后通过索引擎进行相关信息的检索。以“Google Vietnam”为例,网址的输入格式为“http://www.google.com.vn”。

②基于TELNET的信息资源

通过TELNET访问服务器获取的信息资源,即为基于TELNET的信息资源。TELNET的访问方式多种多样,可以直接通过命令行实现远程登陆,也可以通过集成了TELNET登陆方式的客户端软件进行登陆(例如前面提到的BBS的登陆方式之一)。

通过TELNET方式提供的信息资源主要是一些政府机构和研究机构提供的对外开放的数据库,此外,主要的商用联机检索系统如DIALOG等也提供TELNET登陆形式。对于开放式远程服务的计算机可以公开访问,对于需要用户名和口令的计算机,则需要获取其用户名和密码,才能对其资源进行访问。登陆成功后,用户可以按照计算机给定的权限访问远程计算机的硬件、软件和数据库等。

③基于FTP的网络信息资源

FTP的主要功能是利用网络在本地和远程计算机之间建立通信,从而实现计算机之间的文件传递。由于WWW浏览器一般内置FTP功能,所以也可以在WWW浏览器中直接使用这些服务。此外还可以通过在资源管理器的导航栏中输入FTP服务器的地址来访问FTP资源,或通过FlashFXP等客户端软件登陆FTP服务器。

④其他网络信息资源形式

除了上述三种常见的网络信息资源形式,还有基于WAIS的信息资源、基于Gopher的信息资源,以及Usenet网络新闻组信息资源和电子邮件信息资源等。

WAIS(广域信息服务器)是一种双层客户机/服务器结构的网络全文信息资源和检索体系,它允许用户在远程数据库中进行信息传输和信息检索,而这些数据库的结构可以不同。登陆匿名服务器,可以获取用户所需了解主题所在的WAIS服务器,然后再登陆这个服务器进行资源访问。

Gopher是一种基于菜单的网络服务程序,曾经以其简单的界面、丰富的资源和易用的操作构成互联网的一种重要资源类型。然而随着互联网技术的发展,只能提供文本信息的Gopher服务器开始逐步被WEB服务器取代。Gopher可以跨越多个计算机系统,只需要运行本地的Gopher服务器就可以和任一个Gopher服务器通信。用户在各级菜单的指引下,逐层展开菜单,在菜单中选择和浏览相关内容就实现了对远程服务器上信息系统的访问。此外,Gopher还带有工具转换接口,可以直接调用如WWW、FTP、TELNET类型的服务器,并访问其资源。

2.网络信息检索的特点

网络信息资源与传统信息资源有着较大的区别,使得网络信息检索呈现出许多与传统的信息检索方式不同的特点。具体表现为以下几个方面:

(1)检索范围大、效率高

网络信息检索的范围涉及各个领域、学科和专业,涉及各种类型的资源,远远超过了联机检索和光盘检索的检索范围。可以利用的资源多使得检索能返回用户所需文献的可能性大且更加全面。随着检索算法的不断改进,网络信息检索能在很短的时间内返回用户所需信息。用户只需要简单地点击鼠标,即可随意浏览或者直接阅读和利用网络信息资源。

(2)界面友好,与用户有交互

目前网络信息检索工具一般采用图形界面,并提供导航和多种检索途径,检索用户无需再了解复杂的检索语言,而只需要输入关键词或自然语言,就可以得到返回结果。此外,用户还可以根据检索结果,及时调整检索词或检索语句,以获得更好的查询结果。还有一些搜索引擎提供打分功能,用户可以根据返回结果来给搜索引擎的结果进行评价,搜索引擎通过评价结果及时进行调整和改进。这种交互式的友好界面为信息检索带来了方便。

(3)信息冗余大

网络信息资源由于缺乏管理而混入了很多垃圾信息。目前的检索技术还无法达到能很好的辨识垃圾网页的程度,这就导致检索的返回结果中有很多无用信息,影响了检索的准确率。随着人工智能技术的不断发展,各种智能检索技术开始不断被开发和利用,网络信息检索对无效信息的过滤也越来越有效。

网络信息资源的检索方法主要是针对网络信息资源检索的不同类型,最直接的检索方法是通过网页的超链接不断点击浏览相关主题的网页。这种方法不需要特定的检索工具,其目的性不强。目前网络信息资源检索工具一般有目录型、索引型和二者综合型3种。针对目录型的信息检索,我们可以选择所关注的主题,逐级展开目录,直到获取相关信息为止。针对索引型的信息检索,可以直接在搜索框中输入检索词或语句,后台运行相关的检索程序,将结果以列表的形式返回给用户。对于综合型的信息检索,我们可以先进入相关子目录,然后在子目录下进行查询。