首页 理论教育数字出版中英中自动校对:NLP技术助阅读

数字出版中英中自动校对:NLP技术助阅读

【摘要】:英文自动校对的研究大约始于20世纪60年代。同时,一些学者提出了拼写检查和语法检查的方法,对英文错误进行自动拼写改正。英文文本的自动校对基本以词的校对为核心,在“非词错误”和“真词错误”两个层次上进行。英文文本中非词错误的比例较大,所以较容易做出实用的英文校对系统。国内在文本自动校对方面的研究主要是针对汉语文本开展的。所以中文文本自动校对系统还需与人工校对相互补充,才能保证校对质量。

英文自动校对的研究大约始于20世纪60年代。在20世纪80年代初期,美国一些大学英文单词词长和音节划分等规律进行了研究,对文本中的错误做了总结。同时,一些学者提出了拼写检查和语法检查的方法,对英文错误进行自动拼写改正。英文文本的自动校对基本以词的校对为核心,在“非词错误”和“真词错误”两个层次上进行。非词错误指文本中被词边界分隔出的字串不是词典中的词条,真词错误指虽然字串是词典中的词,但它与上下文搭配不当。其查错和纠错方法也相应地分为孤立词和上下文相关的两种方法。英文文本中非词错误的比例较大,所以较容易做出实用的英文校对系统。

20世纪90年代初,国内的研究人员开始探索用电脑来进行中文自动校对的可行性。初期的主要设计思想还是从国外引入的,但是由于中文与西文有很大的差异。汉语词与词之间无明显分隔,词的切分具有很大困难,英文的研究方法不能完全适用。国内在文本自动校对方面的研究主要是针对汉语文本开展的。因为中文文本校对主要面向的是含有错误的文本,因此,汉语自然语言理解的研究也就成了计算机中文文本自动校对的基础。

由于汉语与英语本质上的不同,在对中文文本进行查错/纠错分析时,必须要基于自然语言的理解技术,通过研究上下文间的依存关系才能实现,这显然是比较复杂和困难的,某些适用于英文单词校对的技术和方法对汉语文本并不太适用。目前,国内有不少单位开展了中文文本校对理论和技术的研究,除了微软亚洲研究院、IBM中国研究中心、哈尔滨工业大学、清华大学东北大学北京师范大学、北京工业大学、山西大学等科研院所外,一些有实力的高新技术公司,如北京黑马电子新技术公司、北大方正公司、金山公司等都开展了中文文本校对软件的研究与开发。(www.chuimin.cn)

但与机器翻译—样,文本自动校对技术是建立在自然语言理解技术的基础之上的,是一个难度很大的研究课题,系统的错误召回率和准确率都比较低(召回率小于70%,准确率小于40%),纠错建议的有效率或首选正确率也很低,与用户的要求还有较大差距,故其技术还有待进一步研究。中文文本自动校对的研究总体上还处于刚起步的阶段,中文文本自动校对理论和技术尚不成熟,采用的方法多是字、词级别上的统计方法,使用的模型较简单,利用的语言学知识也不丰富[6]。所以中文文本自动校对系统还需与人工校对相互补充,才能保证校对质量。