首页 理论教育Google东南亚:网络信息检索导论

Google东南亚:网络信息检索导论

【摘要】:作为世界上最大的搜索引擎,Google在东南亚多个国家设立了分站,提供使用本国语言作为载体、支持本地检索功能的搜索引擎。表4-1Google东南亚分站点搜索引擎列表Google主要提供基本搜索和高级搜索两种搜索方式。Google具有自己的关键词语法结构,自动带有逻辑“与”功能。如果关键词是两个或以上的单词,Google自动默认为单词之间为“与”的逻辑关系。高级搜索页面图4-1“Google Malaysia”高级搜索页面单击“Google Malaysia”英文主页中的“Advanced search”链接,进入高级搜索页面。

作为世界上最大的索引擎,Google在东南亚多个国家设立了分站,提供使用本国语言作为载体、支持本地检索功能的搜索引擎。

表4-1 Google东南亚分站点搜索引擎列表

Google主要提供基本搜索和高级搜索两种搜索方式。下面,我们将结合“Google Malaysia”的英文版本,详细介绍Google的搜索方法和技巧。

1.基本搜索方法

在浏览器地址栏中输入网址“www.google.com.my”,打开“Google Malaysia”首页,浏览器会自动出现Google的简体中文版界面。由于此版本不便于对马来西亚本地信息进行检索,点击主页下方的“English”选项,页面变为英文版界面。

关键词搜索是Google的基本搜索方式。在搜索框内输入所需要搜索的内容,按“回车”键或点击“Google Search”按钮,Google就会在网络上搜索与该搜索关键词相关的内容。对于输入的关键词,Google并不区分大小写,搜索“Malaysia Today”与搜索“malaysia today”获得的结果相同;对于关键词中出现的标点符号和其他特殊字符,Google会自动忽略。

Google具有自己的关键词语法结构,自动带有逻辑“与”功能。如果关键词是两个或以上的单词,Google自动默认为单词之间为“与”的逻辑关系。如想搜索马来西亚关于“tourism”和“shopping”的网站,只需输入“Malaysia tourism shopping”即可完成搜索。

由于Google要求输入完整和准确的关键词才能得到最准确的信息,因此,可以通过增加关键词数量、在单词前加“-”号使用逻辑“非”的方法逐步缩小检索范围。如输入“Malaysia tourism -shopping”,可查询包含“Malaysia tourism”但不含“shopping”的网页。

如果搜索的关键词是整个短语或句子,为保证信息的完整性,可以在短语或句子上加标英文引号,这样可以避免单词间的空格被当作“与”操作符。如输入“Datuk Seri Najib Tun Razak”可以精确搜索所有包含马来西亚总理纳吉的信息。

为提高搜索效率,Google在对英文关键词的搜索过程中还会自动忽略to、by、with、the等助词或冠词。选择页面左侧的“Pages from Malaysia”选项后,还可以专门针对马来西亚本地的网络信息进行搜索。

2.高级搜索方法

Google的高级搜索主要通过两种途径:一是进入高级搜索页面进行搜索;二是利用高级搜索语法进行搜索。

(1)高级搜索页面

图4-1 “Google Malaysia”高级搜索页面

单击“Google Malaysia”英文主页中的“Advanced search”(高级搜索)链接,进入高级搜索页面。利用高级搜索,用户可以通过搜索文本框和下拉列表来确定搜索条件,除了对关键词的内容和匹配方式进行限制外,还可以从语言、文件格式、日期、网站、使用权限、字词位置、区域、数字范围等方面进行搜索条件和搜索范围的限定。

①Language(语言)

语言选项中可以选择搜索结果页面的语言,共有46种语言的网页供用户选择。

②File type(文件格式)

文件格式选项相当于特殊语法结构“filetype:”,用户可以选择搜索结果包含pdf、ps、dwf、kml、kmz、xls、ppt、doc、rtf、swf中某一格式文件的网页。

③Date(日期)

日期选项可以选择搜索结果页面产生的时间,如“过去一周内”、“过去一个月内”以及“过去一年内”,对用户查找最新网页非常有用。

④Search within a site or domain(网站)

网站选项与搜索页面所属的域有关,相当于特殊语法结构“site:”语法。该选项还支持否定逻辑,可以排除搜索结果中位于域的页面。

⑤Usage rights(使用权限)

使用权限选项包括“可随意使用或共享”,“可随意使用或共享,可用于商业目的”,“可随意使用、共享或修改”以及“可随意使用、共享或修改,可用于商业目的”,可以对搜索结果页面的知识产权信息进行过滤,在论文写作查找引用资料时非常有用。

⑥Where your keywords show up(字词位置)

字词位置选项可以选择关键词在网页中出现的位置,包括“网页内的任何地方”、“网页的标题”、“网页的正文”以及“网页的网址”,对应特殊语法结构的“intitle:”、“intext:”和“inurl:”。

⑦Region(区域)

区域选项可以选择搜索网页的位置位于哪个国家或者地区,如仅搜索马来西亚本地网络信息,可以选择“Malaysia”。同时该选项支持否定逻辑,可以在搜索结果中排除位于某个国家或者地区的页面。

⑧Numeric range(数字范围)

数字范围可以设置日期、重量、尺寸、价格等范围,查询某个特定数字范围内的相关信息。数字范围通过两个数字以及中间的两个英文句点表示,比如“Mahathir Mohamad 2001..2002”可以搜索马来西亚前总理马哈蒂尔在2001~2002年的相关信息。

(2)高级搜索语法

为了提高搜索的效率和准确率,Google提供了许多搜索语法和技巧,以下将对一些比较常用的高级搜索语法及其使用进行介绍。

①inurl:keyword

限制第一个搜索关键词包含在URL链接中,后面的关键词出现在链接中或者网页文档中。“inurl:”后面不能有空格,链接中的符号“/”不会被搜索,而是当成空格处理。如想搜索马来女歌星Siti Nurhaliza的mp3格式歌曲,可以输入“inurl:mp3 siti nurhaliza”进行搜索。

②allinurl:keyword1 keyword2

限制搜索的关键词(可使用多个关键词)包含在URL链接中。

③intitle:keyword

限制搜索关键词包含在网页标题中,如输入“intitle:culture”,可以搜索标题包含“culture”的网页。

④allintitle:keyword1 keyword2

限制一个或多个搜索关键词包含在网页的标题中。

⑤intext:keyword

限制搜索关键词包含在网页正文中,忽略文本链接、URL和标题。该语法在搜索一些在链接或者URL中经常出现的关键词时非常有用,如搜索“intext:google.com.my”。

⑥allintext:keyword1 keyword2

限制一个或多个搜索关键词包含在网页文体中。

⑦inanchor:keyword

限制搜索关键词包含在网页的“锚”(anchor)链点内。

⑧allinanchor:keyword1 keyword2

限制一个或多个搜索关键词包含在网页的“锚”(anchor)链点内。

⑨define:keyword

搜索与关键词定义相关的网页。

⑩site:domain

限制搜索结果局限于某个网站或者顶级域名中,“site:”后不能有空格,否则“site:”将被作为一个搜索的关键词。网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀。输入“batu caves site:tourismselangor.gov.my”,可以搜索雪兰莪旅游网中关于黑风洞的信息。

filetype:extension

限制搜索的文件为特定的格式,支持搜索的文档包括Office文档(如.xls、.ppt、 .doc、.rtf)、WordPerfect文档、Lotus1-2-3文档、Adobe的.pdf文档、ShockWave的.swf文档(Flash动画)等。如输入“Malaysia Prime Minister speech filetype:pdf OR filetype:doc”,可以搜索pdf或doc格式的马来西亚总理讲话文件。

link:url

搜索所有链接到某个URL地址的网页。由于“link:”不能与其他语法混合使用,所以后面即使有空格也将被Google忽略。

related:url

搜索与特定页面结构内容方面相似的网页。如想搜索与“前锋报在线”主页相似的网页,可以输入“related:www.utusan.com.my”。

cache:url

限制搜索Google服务器上的缓存。

info:url

显示与某URL链接相关的一系列搜索。

daterange:time1-time2

限制搜索在特定时间段内的网页。

3.搜索结果

用户提交搜索后,Google会根据搜索关键词和搜索选项返回搜索结果。在搜索结果页面的搜索文本框下方显示搜索结果命中记录数量和耗时,每个搜索结果记录包括网页标题、网页内容摘要、网页快照、相似网页等内容。搜索结果左侧为搜索选项栏,用户可以在选择网页归属地、网页产生时间等选项后对搜索结果进行二次检索,提高搜索结果的准确率。为便于用户浏览,检索关键词在搜索结果页面中以红色字体显示。用户还可以自定义每页显示的搜索结果数量(10、20、30、50或100),并选择搜索结果链接的网站在当前或是新的浏览器窗口中打开。

4.特色服务

根据用户的不同需要,Google还提供了一些特色的功能,如手气不错、网页快照、类似网页、网页翻译、Google图书、Google学术搜索。

①I'm Feeling Lucky(手气不错)

用户在输入检索关键词后选择“手气不错”按钮,Google将直接登陆它所推荐的网页(搜索结果页中排名第一的网页链接),从而省去察看其他搜索结果的麻烦。

②Cached(网页快照)

Google在数据库缓存中为网页保存了一份索引快照,用户通过“网页快照”功能,无需登陆网页即可以直接查看网页的存档快照。

③Similar(类似网页)

用户对搜索结果中的某一网页内容很感兴趣,但网页资源有限,无法满足用户的需求。通过点击“类似网页”,Google会向用户提供与这一网页相关的网页和资料。

④Google Scholar(学术搜索)

“Google学术搜索:scholar.google.com”主要向用户提供学术文献搜索。用户可以从一个位置搜索众多学科和资料来源,包括来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。Google排名技术会根据每篇文章的完整文本、作者、刊登文章的出版物以及文章被其他学术文献引用的频率,按相关性对搜索结果进行排序,帮助用户在整个学术领域中确定相关性最强的研究。Google学术搜索允许用户使用的搜索选项有“作者搜索”、“出版物限制”、“日期限制”以及Google网页搜索中的一些语法结构,如“+”、“-”、“词组搜索”、“布尔逻辑或(OR)”以及“intitle:”语法等。

⑤Google Books(图书)

“Google图书:books.google.com”界面提供超过35种的语言支持,可供用户搜索所需图书以及相关领域图书的最新信息。根据图书相应的版权保护信息,用户可以在线查看图书的部分预览或全文预览,可以免费下载公众领域图书的PDF副本。Google图书搜索实行“合作商计划”以及“图书馆计划”,截至2007年底,来自100多个国家和地区的一万多个出版商和作者参与了图书搜索合作商计划,参与图书馆计划的合作商数达到28个,其中包括7个国际图书馆合作商。用户在查询到相关图书信息的同时,还可以得到该图书的购买信息以及其在图书馆的馆藏信息,从而方便购买或者借阅该图书。