首页 理论教育国内外研究现状分析及优化方案

国内外研究现状分析及优化方案

【摘要】:总之,中文分词技术在很多系统中都有应用,不管是相似度检测系统、垃圾邮件过滤系统,还是现今流行的舆情检测系统,其应用无非都是为了提高网页信息质量,为广大处于Web时代的民众提供便利。中文分词搜索引擎的优点自不必说,但真正实现是有一定难度的。

索引擎,是目前最流行的网络信息检索工具之一,用来检索网站、Web网页、新闻组、图片、声音、视频及其他Web文件等,它已经成为人们网上冲浪不可或缺的部分。人们越来越习惯于从互联网上共享和获得资源。一方面互联网上的信息量在快速增长,另一方面不断膨胀的互联网资源又吸引了越来越多的信息贡献者和分享者。二者相互促进,共同增长,互联网展现出越来越大的魅力。

搜索引擎技术的研究,从最早的Archie——索引FTP档案的工具到Excite,以及Altavista、Overture、Google等工具的面世,已经有十多年历史,国外比中国也要早近十年。但在中文搜索引擎领域,国内已和国外相差不远,近些年我国已涌现出许多优秀的搜索引擎,诸如百度、中搜等,还有网易自主研发的有道。搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎——搜狗,QQ推出的独立搜索网站SOSO以及由人民日报社和人民网共同出资组建的“人民搜索”(www.goso.cn)等。

此外,一些中文分词技术也如雨后春笋般相继涌现。许多研究院(诸如清华、北大、中科院、北京语言学院东北大学、IBM研究院、微软中国研究院)的学者以及各商务搜索的专家们都在专注于这一会给社会和企业带来巨大效益的中文分词搜索的设计实现,并且将此技术应用于各种研究,如档案智能搜索、智能答疑系统、面向特定领域的专业垂直搜索,甚至将中文分词技术与语义Web服务结合实现动态语义检索等。

总之,中文分词技术在很多系统中都有应用,不管是相似度检测系统、垃圾邮件过滤系统,还是现今流行的舆情检测系统,其应用无非都是为了提高网页信息质量,为广大处于Web时代的民众提供便利。

中文分词搜索引擎的优点自不必说,但真正实现是有一定难度的。在分词技术方面,仍存在一定盲点:

(1)歧义词识别;

(2)未登录词,也即新词识别。

当然,要做到分词的精准性、查询的高度匹配性、不相干的内容过滤,并实现“所想即所得”的完全个性化的搜索还有很长的路要走。