首页 理论教育数字出版:文字编辑和自动校对现状

数字出版:文字编辑和自动校对现状

【摘要】:由于中文文本自动校对是在字、词级别上,计算机校对是以词语检查为主、基于规则和词典信息的机械校对。因而在错别字的校对方面,计算机校对大大优于人工校对。目前的计算机校对软件基本都能实现对丢字多字、打字错误、错别字、英文单词拼写错误、不规范标点、年月日错误的自动校对。尤其是新专业、交叉学科的书稿,计算机校对将很难应付。随着领域术语获取技术的进步,相应的计算机自动校对水平将会进一步提高。

由于中文文本自动校对是在字、词级别上,计算机校对是以词语检查为主、基于规则和词典信息的机械校对。虽然计算机校对还不能达到人工校对的认知智能,但由于有词典的支持,在字、词的识别上有很高的效率,是人工校对所无法比拟的。

目前所使用的汉语校对软件都带有大规模的词料库,按词典标准设立的词语认字具有高度的精确性和稳定性。人工校对是基于一定背景知识和语感的启发性校对,人工校对之所以能发现句子中的文字错误,是因为人的记忆中存有大量的信息,但人的记忆是有限的和不稳定的,各人知识背景的差异对错别字不能完全识别,而且人脑容易受到外界和各种心理因素干扰,对一些似是而非的错别字视而不见。

人工校对的薄弱环节,恰是电脑的强项。电脑中能存储丰富的词语信息,而且都以编码形式存储,一个汉字对应一个编码。对人脑而言形似、义近的难辨字词,在电脑中是不同的编码,电脑很易分辨,而且机校还具有快速、稳定的特点。因而在错别字的校对方面,计算机校对大大优于人工校对。目前的计算机校对软件基本都能实现对丢字多字、打字错误、错别字、英文单词拼写错误、不规范标点、年月日错误的自动校对。

目前计算机校对软件对识别语义与构词错误的正确率还不高,需通过人工校对方法,根据原文的意思来识别,对于常见的语法错误计算机校对也无法正确识别,需人工校对进行纠错。此外,对于公式、图表,人工校对很容易识别其中的错误,而计算机校对却无法识别。(www.chuimin.cn)

专业术语、新词语也是计算机校对的一大障碍。因为计算机校对一般都是以词料库为背景的机械校对,书稿中的句子经校对系统分词后与库中的词语进行比对,找出书稿中的错误。但目前由于学科专业的多样化,交叉学科的发展,新专业、新名词的不断涌现,词料库是无法穷尽的。一般来说,词料库的更新总是滞后于学科专业的发展,专业性越强的书稿,计算机校对进行句子的分词难度就越大,查错率将越低。尤其是新专业、交叉学科的书稿,计算机校对将很难应付。因此,为了达到好的校对效果,计算机校对系统需不断更新丰富其词料库[7]。对一个有经验的校对人员来说,自身丰富的背景知识、专业知识、语言知识、经验知识等对最后的校对结果起着非常重要的作用。

目前,自然语言处理在新词获取方面的研究一直在进行着,特别是合理利用互联网上的文本数据,从中获取领域术语词典成为一个既具有挑战性又具有实际应用价值的课题[8]。随着领域术语获取技术的进步,相应的计算机自动校对水平将会进一步提高。