数字出版中英中自动校对：NLP技术助阅读

2023-11-23 理论教育版权反馈

【摘要】：英文自动校对的研究大约始于20世纪60年代。同时，一些学者提出了拼写检查和语法检查的方法，对英文错误进行自动拼写改正。英文文本的自动校对基本以词的校对为核心，在“非词错误”和“真词错误”两个层次上进行。英文文本中非词错误的比例较大，所以较容易做出实用的英文校对系统。国内在文本自动校对方面的研究主要是针对汉语文本开展的。所以中文文本自动校对系统还需与人工校对相互补充，才能保证校对质量。

英文自动校对的研究大约始于20世纪60年代。在20世纪80年代初期，美国一些大学对英文单词词长和音节划分等规律进行了研究，对文本中的错误做了总结。同时，一些学者提出了拼写检查和语法检查的方法，对英文错误进行自动拼写改正。英文文本的自动校对基本以词的校对为核心，在“非词错误”和“真词错误”两个层次上进行。非词错误指文本中被词边界分隔出的字串不是词典中的词条，真词错误指虽然字串是词典中的词，但它与上下文搭配不当。其查错和纠错方法也相应地分为孤立词和上下文相关的两种方法。英文文本中非词错误的比例较大，所以较容易做出实用的英文校对系统。

20世纪90年代初，国内的研究人员开始探索用电脑来进行中文自动校对的可行性。初期的主要设计思想还是从国外引入的，但是由于中文与西文有很大的差异。汉语词与词之间无明显分隔，词的切分具有很大困难，英文的研究方法不能完全适用。国内在文本自动校对方面的研究主要是针对汉语文本开展的。因为中文文本校对主要面向的是含有错误的文本，因此，汉语自然语言理解的研究也就成了计算机中文文本自动校对的基础。

由于汉语与英语本质上的不同，在对中文文本进行查错/纠错分析时，必须要基于自然语言的理解技术，通过研究上下文间的依存关系才能实现，这显然是比较复杂和困难的，某些适用于英文单词校对的技术和方法对汉语文本并不太适用。目前，国内有不少单位开展了中文文本校对理论和技术的研究，除了微软亚洲研究院、IBM中国研究中心、哈尔滨工业大学、清华大学、东北大学、北京师范大学、北京工业大学、山西大学等科研院所外，一些有实力的高新技术公司，如北京黑马电子新技术公司、北大方正公司、金山公司等都开展了中文文本校对软件的研究与开发。(www.chuimin.cn)

但与机器翻译—样，文本自动校对技术是建立在自然语言理解技术的基础之上的，是一个难度很大的研究课题，系统的错误召回率和准确率都比较低（召回率小于70%，准确率小于40%），纠错建议的有效率或首选正确率也很低，与用户的要求还有较大差距，故其技术还有待进一步研究。中文文本自动校对的研究总体上还处于刚起步的阶段，中文文本自动校对理论和技术尚不成熟，采用的方法多是字、词级别上的统计方法，使用的模型较简单，利用的语言学知识也不丰富^[6]。所以中文文本自动校对系统还需与人工校对相互补充，才能保证校对质量。

数字出版中英中自动校对：NLP技术助阅读

相关推荐