首页 理论教育数字出版中的语言服务:自然语言处理技术助力阅读

数字出版中的语言服务:自然语言处理技术助力阅读

【摘要】:从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工

阅读是一种社会行为,是一种文化活动。了解历史、文化,都离不开阅读。关于阅读意义的古训名言有很多:高尔基说“书籍是人类进步的阶梯”;汉代刘向说“书犹药也,善读可以医愚”。阅读小说散文诗歌文学作品,能陶冶情操,提高素质和修养。现代网络文学、微博和微信等,也是一种阅读需求。还有教育的需求、专业研究的需求、检索文献信息的需求。此外,还有益于深层思考的慢阅读、深阅读,像《易经》、《老子》、《论语》等,这些经典直到现在还在不断地被研习和探究。从根本上讲,文字所承载的文化力量是永恒的,阅读应该是人类永恒的生活方式[2]

人类的阅读从语言角度可有外文阅读和母语阅读之分,随着人类进入信息化时代和数字出版的兴起,阅读内容和形式发生了很大变化;但随着云阅读、云图书馆、移动阅读的普及,毫无疑问,阅读越来越成为人类随时随地进行的普遍的文化活动。

1.外文阅读

人类进入信息时代后,科学技术发展迅速,国际间的科学文化交流日益增多。了解和学习不同国家的文化习俗,掌握新的科学技术及发展动态等成为个人与国家发展所必需。因此,外语的学习和使用比以往任何时代更显重要。外文原版文学读物、外文学术专著、外文原版教材的阅读是现代社会人们所要面对的。

从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。例如,阅读外文文学原著一直被认为是外语学习中一个有效的方法,其为学习者提供了语言习得的语境,阅读中可以做到与大量单词的密切接触,而且读上手之后不会令人心烦,在了解和学习不同文化知识、开发智力的同时,也是学习单词、强化语言学习的直接方法。对于外语水平达到一定程度的人们,外文文学原著阅读成为生活中的一种文化享受。而对外文学术专著和期刊等参考文献的阅读,一般都是为了科研的需要而进行的。

阅读外文原著的难点主要是在刚开始时,由于生词较多,容易产生阅读挫折。当所选读物的阅读难度和内容不合适时,就更加明显。对于专业性的阅读,除了一般词汇问题外,由于强调语言的缜密性、准确性,会经常使用长句和大量专业术语,所以较一般的文学读物等更不容易理解。

能否解决阅读中的词汇和难句障碍,是能否成功克服外文原版读物阅读初期的困难、进入外文熟练阅读过程的关键。虽然我国在外语教学方面投入很大,但效果并不理想,原因之一是没能真正进入外文原版熟练阅读,形成外语学习和实践应用相互促进、紧密结合的良性循环。缺乏应用实践,过多停留在应试和学习过程本身的外语学习严重地影响了外语继续学习或者说终身学习的积极性及在实践中使用的动力。例如,外文参考文献对扩大科研人员的研究视野、确定研究策略和方向、提高科研水平等方面发挥着非常重要的作用,但我国花费大量经费购买的外文文献数据库利用率较低,其主要原因就是语言障碍。

虽然通过利用在线或内置的词典和翻译软件等,能为解决词汇问题提供一些帮助,但到目前为止,还停留在只能为电子阅读提供帮助,并且功能还不完善。如目前的屏幕取词方法不利于词汇的记忆,对期刊文献中专业术语的翻译不能保证完全的准确性。将来,越来越多的出版社会同时销售电子书和纸质书,如果这些出版社的数字出版平台不仅为电子书也能为相应纸质书的阅读提供某些语言处理服务,使得读者能更有效和方便地阅读外文文学原著和学术类著作及期刊文献等,那将是一件非常有意义的事情。

此外,外文阅读还包括多媒体类型的“阅读”,如观看外文动漫、视频电影,玩语言学习用网络游戏等,这些“阅读”遇到的词汇和句子较少,且多为口语形式,如果数字出版中通过对这类“阅读”提供某些语言服务,帮助人们提高“阅读”效率,解除很多时候为语言学习需要不得不边看边做笔记的烦琐,也是非常有意义的事。但到目前为止,人们还没有关注通过采用自然语言处理技术,以语言服务形式来解决这类问题。

2.母语阅读

相对于外文阅读而言,母语阅读较容易,遇到的生词量较外文阅读中少得多,生词对阅读效果的影响相对较小。但词汇问题仍然存在,特别是在某些特殊的阅读方面。

(1)母语阅读中的词汇问题

在母语阅读中,由于阅读者的母语水平存在很大差异,如具有大学以上文化水平、语言发展已经成熟的读者的阅读和语言水平还在快速发展过程中的中小学生的阅读相比是有很大不同的。前者在阅读中遇到的生词很少,后者遇到的生词会较多,特别是小学生,由于掌握词汇量太少,在课外只能读一些儿童类读物。

此外,无论哪个国家,特别是有着悠久历史传统的国家,古籍阅读中遇到生词是不可避免的事。古籍阅读中碰到的生词一般不是普通意义上的生词,而是平常很少使用或根本不使用的生僻词汇。生僻词汇和普通的生词是不同的。

以汉语为例[1],究竟什么叫生僻字?它的范围有多大?学术界目前还没有明确一致的看法。汉语在普通用字面涉及生僻字范围认定有两种意见:一个是把其划在3500个常用字之外;另一个是把其划在7000个通用字之外[3]。我国《语言文字工作百题》对通用字的表述为“它不包括很生僻的、专门用于古汉语的用字,也不包括专业用字”[4]。普通的生字是指在通用字之内的生字,生僻字是指在通用字之外的生字。古代文献(文学、汉语、古代史、考古中医等)中生僻字较多,地理人名方言等也有一些名词术语属于生僻字。(www.chuimin.cn)

现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。人们现在说的“规范汉字”,指的是记录现代白话文用到的字,不包括记录文言文用到的文言古语用字[5]。中文信息处理中,我国一般用户应用汉字数量在国标GB2312—1980汉字6763个范围之内;延伸扩展到GBK字符集20902个汉字。后来的国家标准GB18030—2000中的汉字,收录了27000多个汉字,还收录了藏、蒙、维等主要少数民族的文字,以期一举解决邮政、户政、金融、地理信息系统等生僻汉字与主要少数民族语言的输入,对于一般的用户来说,已经能够满足大多数应用需要。但对于从事文史研究的人员,遇到生僻字的时候还是较多,不仅需要查字典甚至还需要自己造字。到目前为止,汉字生僻字的输入,还一直是困扰文史工作者的难题[6]

随着科学技术的不断发展和现代教育的不断普及,人类的人文精神和人文素质却呈现下降趋势,以致在对人类生存的精神和社会状态产生不良影响下,对传统的思想、文明的探索却有增强的趋势,现在有很多人对古籍研究与阅读已产生了关注和兴趣,但是,无论对于专业研究人员还是热衷于古籍探索和阅读的人们,生僻字已成为古籍阅读中的一大障碍,而现代技术完全可以在这方面辅助解决一些困难。

(2)目前母语阅读中对生词的处理及存在问题

在母语阅读中,不同语言水平的读者遇到生词的情况有所不同。而对于不同国家的人们,由于各自使用的母语特点不同,处理的方法也有差异。如果通过数字出版提供一些语言服务,帮助解决或减少这方面的问题,可产生良好的社会意义。

下面以汉语为例,说明目前母语阅读中对生词的处理及存在问题:

首先,对于母语语言水平成熟的读者,由于一般情况下生字的数量很少,再加上汉字是表意文字,有些字尽管不会发音,但能猜出大概意义,再通过结合上下文语境,几乎不会影响对内容的理解,于是一些读者在阅读中会忽略这些少量的生词。这种处理生词的方法是非常正常的,也是阅读技巧之一。因为人们不可能认识所有的字,特别在读文学作品时,由于常常被故事情节吸引,就不愿意去查字典打扰阅读的趣味性。但对于某些阅读很认真的人,在遇到生词时,很多时候会去查字典,长久以往,词汇掌握情况会很好,就能认识一些别人不大认识的字。

其次,对于母语语言水平还不够成熟的读者,由于遇到的生词较多,就会较频繁地查词典,但不能保证对所有的生词都查词典。如果生词过多,查字典会花费很多时间,必然影响阅读效果。

第三,对于对文史著作研究或感兴趣的读者,在碰到大量生词和生僻字时,查字典的工作量会很大,一些出于兴趣的读者可能会坚持不下去,中途放弃。

第四,对于装有内嵌词典和屏幕取词软件的电子书读者和进行网络阅读的读者,会通过屏幕取词的方法识别和记录所遇到的生词,再有意识地进行重复记忆,即把屏幕抓取的词记录到生词本。目前,在我国一般针对外语阅读中的屏幕取词翻译工具软件较多,功能也较好,但对汉语进行屏幕取词解释的工具软件较少。同时,对于一些生僻字,在内嵌和某些普通词典中是查不到的。尽管中文信息处理的研究人员已经对能提供支持ISO10646/Unicode/GB2312/GB13000/GBK/GB18030/BIG-5/HKSCS等多种汉字代码页标准(包括国际标准、我国大陆标准、我国台湾标准和我国香港标准),包容其定义的所有近3万个汉字的屏幕获取汉字信息的中文屏幕实时解释引擎进行了研究[7]

词汇是语言学习和阅读的基础,但上述对生词的处理不利于词汇学习和保证阅读质量,需要改进的地方体现在以下三个方面:

第一,对于语言水平较高的读者,在阅读中遇到生词,如果查字典,无论是查电子词典还是纸质词典,在花费时间的同时也会影响阅读的连续性,减少人们的阅读兴趣和享受;如果对于少量的生词采用忽略的方法,虽然不会打扰阅读的趣味性,但某些生词若在大量阅读中遇到多次,却仍然保持大概了解或生词的状态,这实际上是语言学习中的一个损失;如果能把这些数量很少的生词自动提取出来,形成有解释的词汇表,是非常容易记忆的。

第二,长久以来,人们通过对语言的研究,已经发现,一种语言中的词汇使用频率是不同的。有些是常用词,使用频率高;有些是低频词,使用频率低。语言水平高的读者不仅掌握了常用词,而且掌握很多低频词;语言水平低的读者则常常只掌握了常用词,对低频词认识得很少。所以,读者的语言水平是可以根据其掌握的词汇情况进行分级的。

现代技术可以在数字出版一本书的时候,对书中的词汇进行词频统计排列,从而产生与不同语言水平读者相符的生词表,直接提供给读者。这种词汇表可以根据需要添加解释、页码、发音等多种属性,使电子书和纸质书读者都能获得帮助。

第三,阅读前的词汇预习和阅读后的词汇复习对于改善阅读质量和提高词汇记忆是非常有效的。从古至今,人们无法在阅读前事先知道所读书籍中的生词,进行预习后再去读书也很难在阅读后方便地返回原语境复习生词。但通过数字出版平台提供简单的词汇抽取服务就可以容易地解决该问题。