首页 理论教育数字出版中的语言服务:汉语词处理技术

数字出版中的语言服务:汉语词处理技术

【摘要】:所以,汉语分词成为中文信息处理中重要而又难以解决的问题。多年来,汉语的词切分问题严重地影响了中文信息处理,或者说中文自然语言处理的发展。目前,随着人类社会向数字环境下“智能社会”的发展,自然语言处理在信息处理中的作用越来越重要,中文分词成为文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术和难点。

自然语言处理中最难解决的是歧义问题。当我们向计算机中输入一个语段,让计算机根据人们设定的规则对其进行自动分析,从而推导出该语段的正确结构和意义时,计算机常常会得出多种分析结果,而这些结果中往往只有一种是正确的,这就是自然语言处理中的潜在歧义问题。

对于中文信息处理,由于汉语是表意文字,词与词之间是连写的。其句子中词与词之间的边界标志是隐含的,不像英语那样词与词之间有明显的空白,要用计算机进行汉语处理,第一步要进行的就是识别这些隐含的词语边界,把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。但因为把用汉字串表达的较大的语言单位(如句子或短语)切分为较小的语言单位(如短语或词)的过程中,存在大量的歧义,而分词是大部分中文信息处理系统的第一步(即前端),是对句子实施句法和语义分析的前提,该阶段的任何错误都将会严重影响以后句义、篇章等处理过程的正确性。所以,汉语分词成为中文信息处理中重要而又难以解决的问题。

例如,英文句子“Iamastudent”,用中文则为“我是一个学生”。计算机可以很简单地通过空格知道“student”是一个单词,但是不容易明白“学”、“生”两个字合起来才表示一个词。

又如,汉字串“白天鹅”到底是“白天鹅”还是“白天鹅”?只有当“白天鹅”这三个字出现在更长的上下文中,歧义才能消解。“白天鹅飞过来了”——白天鹅飞过来了。“白天鹅可以看家”——白天鹅可以看家。因为人根据经验和知识,天鹅是飞禽,鹅是家禽,从而得出正确判断。

又如,“大字典”应切分“大字典”,“大字本”则是“大字本”,而“高精尖”是3个词的并列:“高精尖”,“莫斯科”又不能切分。

此外,大多数中文处理系统依据汉语词典进行自动分词,但实用性词典中不可能登录所有的词语,因为汉语词汇丰富,而且新词不断出现,所以未登录词识别也是汉语自动分词中的困难问题。

如,“今天苏晓宁上班”中,由于不能正确识别人名“苏晓宁”,自动分词后的结果为——“今天苏晓宁上班”,这样就无法在下一步正确分析出句子结构意义。

在现实生活中,人们谈话的时候,遇到歧义的问题会通过思维分析自然解决,但计算机在处理自然语言的过程中需要自动分析很多层面,如词汇层、标点符号和句子等,由于计算机不具有人类的智能和灵活性,所以会产生分析结果的歧义[2]。多年来,汉语的词切分问题严重地影响了中文信息处理,或者说中文自然语言处理的发展。

目前,随着人类社会向数字环境下“智能社会”的发展,自然语言处理在信息处理中的作用越来越重要,中文分词成为文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术和难点。

经过过去20多年中的努力,中文分词在分词算法、歧义消除研究、未登录词研究、分词与词性标注评测等方面都已经取得了非常可喜的进步,并建立了一些中文分词系统。下面以中文分词算法和中文分词系统为例进行说明。

1.分词算法

数学和计算机科学之中,算法(Algorithm)是一个计算的具体步骤,常用于计算、数据处理和自动推理,或者说算法代表用计算机解一类问题的精确有效的方法。

衡量一个分词算法优劣标准是分词速度与精度,所以各种算法是围绕精度与速度展开。目前中文分词算法很多,大致可归纳为:词典分词方法、理解分词方法、统计分词方法、组合分词算法[3]

1)词典分词方法

按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。该方法需要确定三个要素:词典、扫描方向、匹配原则,包含两个核心内容:分词算法与词典结构。(www.chuimin.cn)

算法设计可从以下几方面展开:字典结构改进;改进扫描方式;将词典中的词按由长到短递减顺序逐字搜索整个待处理材料,一直到分出全部词为止。

2)理解分词方法

基本思想是分词同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。理解分词方法需要使用大量语言知识和信息,因此该方法需要用到人工智能技术。但由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3)统计分词方法

统计方法思想基础是,词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能够较好地反映成词的可信度,因此对语料中相邻共现的汉字的组合频度进行统计,计算他们的统计信息并作为分词的依据。常用统计量有词频、互信息、t-测试差等。

4)组合方法

由于单个方法虽有优点,但也存在不足,所以实际分词算法设计时需要组合几种方法,利用各自优点,克服不足,以更好解决分词难题。例如,字典与统计组合,分词与词性标注组合等。

2.中文分词系统

中文分词系统是利用计算机对中文文本进行词语自动识别的系统,一个高效的、性能优良的中文分词系统应该具备几个基本要素:分词准确度、分词速度、系统可维护性、通用性、适应性。

早期的分词系统由于受硬件条件及分词技术影响,在分词速度与精度上还不够理想,实用性不高,但现在的分词系统在分词速度与精度上明显提高,实用性越来越强,为中文信息处理带来很大方便。

1)中国科学院计算所汉语词法分析系统ICT-CLAS

ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System)是中国科学院计算技术研究所研制,主要功能包括中文分词、词性标注、命名实体识别、新词识别、支持用户词典、繁体中文、CBK、UTF-8、UTF-7、UNICODE等多种编码格式。目前ICTCLAS3.0分词速度单机为996KB/s,分词精度为98.45%,API不超过200KB,各种词典数据压缩后不到3MB。

2)海量智能分词研究版

海量智能分词系统较好地解决了分词领域中的两大技术难题:歧义切分和新词的识别。分词准确率达到99.6%,分词效率为2000万字/min。其中组合歧义的处理一直是分词领域的难点中的难点,海量分词系统能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率比较高。