首页 理论教育数字出版中的自然语言处理技术助力教材阅读

数字出版中的自然语言处理技术助力教材阅读

【摘要】:外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。

外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。微软预测,到2020年,90%的图书品种将同时采取数字和纸张方式发行,到2030年,90%的图书是网络版本,传统的纸质读物只占10%左右[8]

目前,对于电子文档形式的教材,虽然学生可以使用在线词典和翻译软件,但由于含有很多专业术语,不能保证翻译结果的准确性。此外,在阅读的同时,通过屏幕取词来理解生词,不仅影响阅读速度,也干扰对文章内容的理解,在生词较多时更加明显。虽然一些优秀的教材为了帮助学生更好理解教材内容,在教材附录中提供了一些术语解释,但对于刚开始阅读原文教材的学生,仍然面临词汇和内容难度的双重困难,并且电子阅读容易产生视觉疲劳、影响精力集中的深度阅读效果和不容易吸收所阅读的内容等一些不利因素,由于原版教材书一般篇幅很长,采用电子阅读时,这种缺点会更明显。

纸质书教材阅读具有电子阅读所不具备的许多优点,阅读舒适,可随意勾画、标记,便于记忆和凝神思考,但需要较多地查词典,无论是查纸制词典还是电子词典,都比较费时间,并且不仅要查通用词典,还需查专业词典。(www.chuimin.cn)

因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。但通过数字出版提供词汇抽取服务,可以有效地减少阅读中因生词带来的困难。语言学者已经验证,如果想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆新单词应该是较好的、也是最直接的办法[2,3],所以在数字出版中对原版教材提供词汇和难句抽取服务具有积极意义。