首页 理论教育越南互联网搜索引擎及其使用

越南互联网搜索引擎及其使用

【摘要】:越南互联网在最初的几年发展迅速,越南的IT行业也开始关注本地搜索引擎的研发。到目前为至,互联网上的越文搜索引擎不多,主要是由于越语的组词造句与英语有很大的差别,因此越文搜索引擎的建设和使用都难于英文搜索引擎。2006年2月,Yahoo越文版开始在越南试行,并于同年3月正式投入使用。越南互联网的搜索引擎主要分为索引型搜索引擎和目录型搜索引擎,这些搜索引擎可以同时针对越文和英文资源进行检索。

越南于20世纪90年代开始本国的互联网建设,并于1997年底实现与互联网的ICP/IP的连接。越南互联网在最初的几年发展迅速,越南的IT行业也开始关注本地索引擎的研发。到目前为至,互联网上的越文搜索引擎不多,主要是由于越语的组词造句与英语有很大的差别,因此越文搜索引擎的建设和使用都难于英文搜索引擎。

越南Tinh Vân通讯技术公司于2000年投入运行了第一个越文搜索引擎vinaseek.com,同年还出现了由Netnam公司研发的panvietnam.com,它们主要用于信息检索。2001年10月投入使用的hoatieu.com增加了图片检索功能。在此阶段,由于越南各网站使用的编码不统一,20多种编码同时存在,而世界各大著名搜索引擎如Altavista或Yahoo等都不支持越文编码,所以这三个越文搜索引擎得以独占越南市场。后来越南大部分网站统一使用Unicode编码后,Google开始进驻越南市场,并以其雄厚的经济实力和成功的市场经验快速占领了越南搜索市场的大部分份额,而上述三个越南本土的搜索引擎渐渐被人们遗忘了。2006年2月,Yahoo越文版开始在越南试行,并于同年3月正式投入使用。从这两大著名搜索引擎进入越南到2007年,越南本土的IT行业一直在Google、Yahoo强大的压力下寻找生存的空间,他们明白Google的界面友好,搜索分类齐全,搜索速度快,但由于越南的市场小,赢利少,所以Google的关心程度和投入力度相对较小,自然就存在着缺陷。如“Google Vietnam”现拥有3千万个越文网页的信息,而越文网页有1.5亿~2亿个;网上的越文信息还有不少非Unicode编码的网页,这部分信息Google没法搜索到;因为语言本身有其深刻的文化内涵,所以Google不可能完全本地化等。近年来,越南IT行业致力于研发Google所不具备的功能,2007年开始,越南自主研发搜索引擎进入蓬勃发展的阶段。

越南互联网的搜索引擎主要分为索引型搜索引擎和目录型搜索引擎,这些搜索引擎可以同时针对越文和英文资源进行检索。此外还有Baamboo和zing mp3等音乐专业搜索引擎,以及Ttim1s等行业搜索引擎。

1.常用索引型搜索引擎

(1)Xalo(http://xalo.vn)

①概述

2008年初,由越南Tinh Vân通讯技术公司投资2百万美元研发的beta版本xalo.vn正式运行,它也是目前越南检索功能最齐全的搜索引擎,收录网页数量超过1亿,支持Unicode、TCVN-5712、VNI、Vietware、VIQR、BKHCM1、BKHCM2、VISCII、VPS编码。

Xalo在越南的网站流量排名第33,搜索服务占该网站总服务71%,主要提供网页、新闻、照片、音乐、博客、影像等检索,同时还提供天气预报、证券汇率、万年历、彩

票、电视节目单、电话查询、行业查询等服务。

②检索方法

Xalo查询界面分为简单检索和复杂检索:

a.简单检索。在简单检索界面中含有一个文本输入框和一个按钮。用户只需在文本框内输入想要检索的关键词,然后按下“tìm”(查询)按钮即可。如果对返回的检索结果不满意,可以再加入一些限制性单词,如字段限制等。Xalo采用了字段限制检索的功能,字段包括link、site、url、title等。通过加入限制符号对检索结果范围加以限定,如使用“”(半角)的作用是将单词连为词组,可以使检索结果更加精确;使用“*”(通配符)可以帮助扩大检索结果,比如按“nông *”进行检索,检索内容将包含“nông nghip”、“nông thôn”、“nông dân”等。此外,Xalo还采用了逻辑算符AND、OR、NOT及其等价符号“+”、“-”、“(空格)”进行检索。

b.复杂检索。利用复杂检索提供的列表式选项可以对检索进行控制,使检索结果符合以下要求:包含键入的所有检索的关键字词、包含键入的完整词组、包含其中的一个字词、不包含键入的字词、特定的文件格式、特定的时间限制、信息的大小、包含特定的人物或组织、关键词所处的位置、位于特定的网域或网站内等。

③检索结果显示

检索结果主要包含以下内容:有效的关键词,系统可识别的关键词、找到的网页数目、网页的标题、摘要、URL地址、文件的大小、搜索引擎抓获该页面的时间、结果相关性评估。

(2)Panvietnam(http://www.panvietnam.com)

①概述

图4-4 Xalo网站主页

Panvietnam搜索引擎由NetNam公司的阮世荣、黄青松和黎红研发,于2000年运行V0.1版本,2001年9月升级为V0.2版本,目前使用的是2002年1月升级后的3.0版,它同时支持Unicode、VNI、TCVN编码,收录的范围包括各个网页和各数据库的数据,主要提供网页检索功能。

②检索方法

进入Panvietnam后,在页面上有一个文本输入框和一个“search”按钮。检索便从这里开始。它提供了简单(Tìm ki m mặc đnh)和复杂(Tìm kim nâng cao)两种检索方式。简单检索支持自然语言检索形式,检索结果多而乱,复杂检索选项可以使检索结果更加精确。

在简单检索中,Pavietnam使用了一些限制字段符等限制项。如:“”限制符,anchor、applet、domain、link、image、title、url、host等字段符。

此外,复杂检索还增加了若干对检索进行控制的列表式选项。单击主页“search”按钮左边的“Tìm ki m nâng cao”进入Pavietnam控制选项页面。

a.逻辑操作。“与”,文章必须同时包含用户的所有关键词才能满足要求;“或”,文章包含用户的任意一个关键词就满足要求;“非”,文章不包含某一关键词。

b.检索范围。关键词出现在某一种材料中,出现在材料的某个位置或出现在域名里。

c.限定材料的格式。Pavietnam可对特定格式的资源进行检索,支持检索的格式包括pdf、ps、doc、xls、ppt、rtf等。

为了提高检索结果的准确率,Panvietnam增加了“deep search”功能,通过它系统再次选择相关性更高的结果。使用Pavietnam时,如果希望检索准确率高,应尽少使用出现频率比较高和比较普遍的词,如“tiêu chuẩn”等 。

③检索结果显示

用户提交检索后,系统将根据用户的关键词和检索选项返回检索结果。检索结果按网页相关性进行排序,每页显示10条列表信息,显示内容包括网页数目、序号、标题、摘要、网址等相关信息。

(3)Socbay(http//:www.socbay.com)

2007年8月,由5个刚走出大学校门的年轻人研发的Socbay.com投入试运行,主要提供网页信息、音乐、电影、书籍和地图的搜索。这几个年轻人雄心壮志,希望能把Socbay建设成能与Google抗衡的本土搜索引擎,就像中国的Baidu或韩国的Naver。Google曾在2009年想收购Socbay,但未能成功。

Socbay是一款针对越南国内网页进行搜索的索引型搜索引擎,可以使用越文或英文关键词对信息资源进行检索。Socbay的主页页面简单干净,使用非常方便,虽然结果所显示的信息量没有Google的多,但是仍然深受越南用户的喜爱。除了网页检索,Socbay还提供mp3检索和词典查询等。

(4)检索示例

【例4-1】利用越南Xalo 搜索引擎,查找越南电视小品栏目Góc cưi的节目视频。

具体搜索步骤如下:

①通过网址“http://xalo.vn”,进入Xalo 搜索引擎主页。

②点击主页上方导航栏的“Video”标题,进入视频专项检索页。

③在搜索框内输入“Góc cưi”,单击“Tìm”按钮进行搜索。勾选搜索框下方的复选框还可以对视频的来源进行限定,来源网站包括Clip.vn,Youtube.com,Zing.vn等。

④搜索结果显示为视频截图和小品名称,点击截图或名称可打开播放页在线观看。

2.常用目录型搜索引擎

(1)Vnnsearch(http://www.vnnsearch.com)

①概述

Vnnsearch是一群自由编程员建立的目录型搜索引擎,于2006年10月20日问世。网站目前共收集了超过2.5万个网址。Vnnsearch将自己搜集到的数据分门别类加以整理,共有181个详细分类。它主要提供网站分类检索、网站检索和关键词检索方法。

②主页介绍

Vnnsearch网站的主页上方是Banner。网站的Banner包括网站的名称和网址、7个导航栏、由Google支持的一个文本输入框和一个按钮。Banner的下方是导航栏,有trang chủ(主页)、 thêm mi website(添加网站)、danh bạ website(网站目录)、li bài hát(歌词)、tin tức(新闻)、công c web(web工具)、blog(博客)、l y link nhạc(音乐连线)等。左边的导航栏主要是(资助网站的链接)、danh mc(按字母排序的25个网站目录)、Âm nhạc phim ảnh(音乐、视频)、Trang tin tức(报纸、新闻)、Công ty,Tập đoàn(公司、集团)、(服务、旅游、饮食)、Internet(网络服务)、Din đàn,Blog,Web2.0(论坛、博客)、电子、通讯)、Game,Trò chơi(游戏)、Gi i trí nói chung(娱乐)、Giáo dc,Đào tạo(教育培训)、Khoa hc Công ngh科学技术)、Kinh t ,Tài chính,thương mại(经济、财政、贸易)、建筑、装修)、Lĩnh vc khác(其他领域)、(计算机、网络、软件)、Ô tô,Xe máy,Máy bay(汽车摩托车、飞机)、Pháp luật,Chính tr,(法律政治)、Th thao,Bóng đá(体育足球)、(服饰、美容)、Thủ công mỹ ngh(手工艺术)、(国家组织、协会)、(文化、艺术)、就业)、社会、个人)、khỏe(医疗健康)、website mi cập nhật(最新添加的网站)。页面中间是主页的主体部分,上方是重点网站,下方是我们点击导航栏后发生切换的页面。

③检索功能

Vnnsearch提供分类目录浏览和关键词检索功能。

a.分类目录浏览。Vnnsearch把收集到的信息分成上述的25大类,每个分类下包括具体的子目录,如在音乐、视频下的子目录包括:在线影院、音乐、歌手演员、MP3、粉丝俱乐部、在线音乐等。用户可以根据想要查找的信息所属类别,进行层级点击,查找所需网站地址。

b.关键词检索。Vnnsearch和Google合作,关键词检索默认采用Google提供的搜索工具,其检索参照越文Google的检索方法。由于不提供高级检索,更多需要使用字段符和逻辑算符等来提高检索的效率

c.结果显示。显示的网站按照收录时间的先后进行排序,内容包括网站或机构名称、收录时间、Alexa的排名、Google的网站PR值、网站的价值、浏览次数和网址等。通过Google搜索显示的网页内容包括标题、摘要、网页类别、网址等信息,并按照网页相关性进行排序。

(2)Vinatop(http://www.vinatop.com)

①概述

Vinatop网站目前共收集了12类近1.6万个网址,主要提供网站分类检索和站内关键词检索功能。

②主页介绍

Vinatop网站的主页上方是Banner,包括网站的名称和网址,6个导航栏和关键词搜索文本输入框。导航栏包括trang chủ(主页)、đăng ký(注册)、web mi(新网站)、(寄信)、bài vit(文章)、web hay(好网站)。

主页中间是网站的目录分类,主要有Giáo dc-Đào tạo(教育、培训)、Máy tính-Internet(计算机、互联网)、Giải trí-Âm nhạc(娱乐、音乐)、(国家、组织)、(文化、艺术)、(科学、工业)、(体育)、(社会、个人)、mại(经济、贸易)、(时事、新闻)、(医疗、健康)。

主页的右边是导航栏,内容包括上述12类目录、信息、有用的链接、文章、搜索引擎优化工具、注册新网站等。

③检索功能

Vinatop提供分类目录浏览和关键词站内检索功能。

a.分类目录浏览。Vinatop把收集到的信息分成上述12大类,每一类别下还有子目录。如教育培训下就分为俱乐部、教育相关服务、普通教育、学生会、科学工业、经济、教育资源、教育组织、信息、大学学院、就业培训、信息技术培训、在线培训、留学奖学金等。这是由目录和子目录构成的目录等级结构,可以逐层进行检索,也可以通过关键词在某一分类下进行检索。

b.关键词站内检索。Vinatop提供的关键词检索主要针对站内与该关键词相关的网站进行检索,关键词检索分为简单检索和某一目录下检索。

c.结果显示。显示网站按照相关性或字母顺序进行排序,内容包括网站或机构名称、简介、网址等。

(3)Vietnamwebsite(http://www2.vietnamwebsite.net)

①概述

Vietnamwebsite是直属MT科学技术部和越南信息协会VINALINK公司的网站,目前共收集了5000多个网址,是第一个采用CDRom 形式的网站目录,属于目录型搜索引擎,检索功能主要有分类检索、网站检索和关键词检索。Vietnamwebsite和Google合作,默认采用Google提供的网页搜索。

②主页介绍

Vietnamwebsite将自己搜集到的数据分门别类加以整理,对某些有联系的信息进行归类,组成分类索引数据库,方便人们在检索时可以很快找到符合自己需求的信息。Vietnamwebsite将它所有的信息分为28大类:(地名、地区)、bán hàng-rao vặt(买卖、生意)、cá nhân-sở thích(个人、喜好)、(工业、生产)、(服务)、(旅游、名胜)、giải trí-âm nhạc(娱乐、音乐)、giài trí-thư giãn(娱乐、消遣)、Giáo dc-Đào tạo(教育、培训)、giao thông-vận tải(交通、运输)、(科学、技术)、Thương mại(经济、贸易)、máy tính-Internet(计算机、网络)、(国家、组织)、nông lâm ngư nghip(农、林、渔业)、(普及知识)、tư liu-tra cứu(资料、查询)、(组织、团体)、(国际组织)、tài chính-ngân hàng(财政、银行)、(环境资源)、thao(体育)、(时事、新闻)、(文化、艺术)、xã (社会、个人)、(建筑、不动产)、xuất nhập khẩu(进出口)、(医疗、健康)。这些类目录下包括具体的子目录,用户查找时,可以根据要查找信息所属的类目,从首页开始,然后点击相关的类目录、子目录查找所需网站地址。

③检索功能

Vietnamwebsite提供分类目录浏览和站内关键词检索功能。

a.分类目录浏览。Vietnamwebsite的组织形式是一种按层次逐级分类的类目体系,即把收集到的信息分成上述的28大类,每一类别下还有子目录。用户检索时首先要确定搜索课题的属性,然后逐层进行检索,最后在子目录下显示的一系列网站中选择所需的网站,点击该网站地址进入网站进行浏览。

b.站内关键词检索。Vietnamwebsite的关键词检索分为简单检索和某一目录下检索,可以通过关键词检索站内相关的网站地址。

c.结果显示。显示结果包括网站或机构名称、简单介绍、网址和归属目录,按照相关性或字母顺序进行排序。

(4)Danhbawebsite(http://www.danhbawebsite.com)

Danhbawebsite是PA Vietnam有限公司在2002年推出的目录型搜索引擎,主要提供分类信息查询和关键词检索。Danhbawebsite将它所有的信息分为12大类,即教育培训、消闲音乐、科学技术、经济贸易、计算机网络、国家组织、体育、时事新闻、资料查询、文化艺术、社会人文、医疗健康,每一大类下又细分几个类目。对于互联网的初级用户而言,通过对分类信息的检索和浏览,可以对该搜索引擎的索引数据库内容有一个总体认识,便于在以后的信息查询过程中选择一个合适的搜索引擎。Danhbawebsite还提供关键词检索功能,具有Danhbawebsite网站检索功能(搜索站内分类数据库中收录的网站)和由panvietnam.com支持的网页检索功能。

(5)Timnhanh(http://www.timnhanh.com)

2007年初,由VinaCapital投资200万美元、越南在线网络股份有限公司研发的www.timnhanh.com投入运行。Timnhanh模仿Yahoo的模式,提供了很多相似的服务,共有25种,现在使用Web 2.0技术便于用户使用这些服务所提供的信息。它主要提供的搜索服务有:网页搜索、图片搜索、音乐搜索、新闻搜索、视频搜索和就业搜索。

(6)检索示例

【例4-2】利用Vnnsearch网站的分类目录查找能够在线观看电影的越南网站。

具体检索步骤如下:

①通过网址“http://www.vnnsearch.com”进入Vnnsearch网站的主页,下拉页面至分类目录位置。

②分类目录位于网页的左侧,点击排在最前面的“Âm nhạc,Phim ảnh”选项。

③分类目录右侧显示该目录下的子目录,点击选择“Xem phim trc tuyn”选项。

④本次检索共获得74个相关记录,每页显示12个记录,都是越南在线观看电影的网站链接和缩略图,并按照访问量大小顺序依次排列,单击其中任一记录中的网站名称链接,可以访问该网站并在线欣赏电影。

3.其他搜索引擎

(1)Baamboo(http://www.baambaool.com)

经过两年的建设,2008年3月,专门针对音乐搜索的Baamboo投入运行。其界面和显示结果简单明了,主要搜索范围包括MP3和Video。用户可以选择歌曲名称或歌词内容的方式来搜索自己需要的音乐。结果显示包括歌唱者、专辑、大小、时长和来源。

(2)zing mp3(http://www.mp3.zing.com)

2007年11月,VinaGame运行了专业音乐搜索引擎zing mp3,主要提供MP3文件的检索。用户可以通过限制关键词的范围,如歌词、演唱者、专辑、视频等来提高搜索效率,尽快找到自己需要的音乐。结果显示包括歌曲名、体裁、大小、时长等。

(3)Thư vin.net(http:// www.thuvien.net)

Thư vin.net是一个图书馆在线服务网站,便于各图书馆之间相互学习和交流,进而提高自己的业务水平。Thư vin.net提供关键词搜索服务,使用搜索引擎bookilook、worldcat搜索图书;使用搜索引擎xalo.vn搜索网页;使用từ đin chuyên ngành查询行业知识;使用webdict进行英越、俄越翻译。Thư vin.net还提供数据库检索(tra cứu CSDL trc tuyn)。通过对具体信息如书名、作者、出版社、出版时间、关键词等的检索或通过网站提供相关可下载的网站来获取所需的书或杂志。

(4)Tim1s(http://www.tim1s.vn)

Tim1s的意思是“一秒钟搜索”,它是在越南加入WTO后,为了适应快速发展的电子商务而研发的,专用于搜索越南商业贸易信息的行业搜索引擎。Tim1s的界面简单清淅,主要提供关键词搜索,可以通过一些限制选项来搜索与关键词相关的网站、新闻事件、照片和博客,并可对搜索结果进行地域(从省市到道路名)的选择。