首页 理论教育数字出版中的语言服务:克服局限性的自然语言处理技术

数字出版中的语言服务:克服局限性的自然语言处理技术

【摘要】:图2-5 语言服务的局限性读物内容和语言难度信息缺乏为实现成功阅读,读者在选择读物时需要考虑内容和语言难度两个方面的因素,这两个因素在外文阅读中就更显重要。即使提供了,意义也不大,因为屏幕取词是随机性的,和文本总体词汇分布及读者自身语言水平没有直接的相关性。但在目前技术条件下,在数字出版中提供与词频分布规律和读者语言水平相关的语言服务已经具有可实现性。

信息时代的阅读,除了阅读形式的多样化,阅读资源的获取也变得丰富和便利。目前,“云阅读”已经变成现实。所谓云阅读[25],就是通过阅读终端,能够在任何时间、任何地点阅读和获取所需要的信息。在云阅读时代,读者所需要的不一定是图书,也不一定是其中某一篇、某一章、某一节的内容,而是根据阅读需求随机产生的某一个阅读主题。

但是,在人类阅读方面,虽然阅读资源获取已经变得很方便,阅读形式和设备已多样化,可在利用现代技术为人类阅读提供语言方面的服务上却进展缓慢,服务种类非常少,具有非常大的局限性,这体现在以下几个方面,如图2-5所示。

978-7-111-47385-5-Chapter02-6.jpg

图2-5 语言服务的局限性

(1)读物内容和语言难度信息缺乏

为实现成功阅读,读者在选择读物时需要考虑内容和语言难度两个方面的因素,这两个因素在外文阅读中就更显重要。如果语言难度过大,词汇和语法会超出读者所能理解范围,读者很难看懂内容,由此产生的阅读障碍将使阅读无法进行和持续。对于同样难度的书,如果内容是读者感兴趣的,与读者的阅读动机、个人兴趣、价值观念、文化知识背景相符,阅读的成功率会增加,但依然存在困难。只有阅读文本在内容和语言难度方面均与读者相符时,才能保证阅读的优化。目前数字出版中已经提供的文本难度(文本易读性)服务,或称为阅读分级服务,就是为了解决这个问题。阅读分级服务在儿童阅读能力和外文阅读方面非常重要。

鉴于我国阅读分级目前还处于起始阶段和对外汉语推广的需要,在进行阅读分级的研究中,不仅要注意考虑便于汉语母语读者的阅读,也要注意考虑其他国家学习汉语人们的需要。

目前,人们提供阅读分级服务的主要服务对象是儿童阅读,对这种类型的语言服务在外文阅读中的应用考虑很少。这是因为目标语出版国无法了解其他国家语言学习者的语言水平和衡量标准,很难为阅读该书的外国读者提供相关语言难度信息。但是,目标语和母语的语言学家可以通过合作建立切实可行、方便读者使用的阅读难度分级信息对比标准,实现外文书出版中的阅读分级服务。

例如,美国已经建立了比较系统的阅读难度分级标准,而中国对英语只有大学四、六级等标准。两国的语言学家们可以对中国和美国学生的实际英语水平和相应判定标准进行对比,如中国大学的英语六级对应美国几年级学生的语言水平。制定对比标准后,中国的出版社平台在英语书籍方面就可以参考利用或引进美国的阅读分级标准,方便中国的英语学习者选择合适的阅读书籍。反之,现在世界上学中文的人越来越多,中国应该建立相应的汉语书籍阅读难度分级和提供词汇及难句抽取服务,为所有学中文的人们提供便利。如果各国家的数字出版平台都能提供本书所提及的各种语言服务,外文阅读在趣味和效率上都会带给人们更多的惊喜。

目前,国际上在这个方面还几乎是空白,我国正在推广汉语,应该注意了解世界各国学习汉语的情况,通过与那些国家相关领域的学者协商探索,在书籍出版时提供与各国汉语学习者汉语水平相符的阅读难度分级信息服务。

(2)阅读文本中的生词和难句无法预知

在目前提供的语言服务中,对于阅读,无论是多媒体阅读还是文本阅读,无论是文本难度服务、屏幕取词还是翻译服务,都还没有解决人类几千年来无法克服的问题,即没有办法提前知道阅读内容中可能遇到的词汇和句子方面的困难。同样,在观看外文动漫电影时,也无法知道其中可能面临的词汇和不容易理解的句子,只能在观看过程中以笔记的方式进行人工记录,不仅影响观看效果,同时由于人类短时记忆的限制,对词汇和句子的记忆也很有限。即使在可以预先获得影片对白文本的情况下,阅读大部分都知道的词汇和句型,也很难理解影片的主旨,同时也实在是枯燥无味的事情。(www.chuimin.cn)

如果能提前知道所要阅读文本内容中的生词和难句,以将要阅读的章节为单位,进行预习;预先知道所要观看的外文影片中几个不熟悉的词或俚语,提前进行读写和听力练习,则可以大大改善阅读和观看质量。对有些读者或观看者,这里涉及的词汇、难句、俚语的数量可能较多,对其他的人,则可能比较少,有时甚至是很少,但通过预习都会产生积极影响。

如果说,在自然语言处理、云计算和数字出版之前,这种语言服务还无法实现,但现在已经可以较容易变成现实。

(3)返回原语境复习知识点困难

在目前对各种数字出版物提供的语言服务中,包括书籍电影等,除了无法预知可能遇到的生词和难句外,另一个问题就是很难返回原语境复习。例如,在读书时遇到一个生词,用笔记录下来,有的读者把生词和查到的解释记录到书上(如果读的是纸质书),有的读者记录到笔记本上(包括电子笔记本),但不是所有人在记录一个生词或难句时,都把其对应的页码记录下来,这就产生了返回原语境复习的困难。在语言学习方面,在上下文相关语境中的学习非常重要,外语学习更是如此。有研究表明,学习者必须在一定时期内(如半年),接触同一个词7到10次才能记住。如果能实现原语境的快速返回,对语言学习会产生帮助,但目前还没有发现这方面的语言服务形式。

(4)语言学研究成果在服务中难以体现

随着人类语言学研究的发展,对于语言本身的规律有了进一步的了解,积累了很多语言研究成果,但很少或难以在数字出版语言服务中应用。例如词频分布问题,一种语言中,尽管词汇很多,但在人们的实际生活和书籍中,常用词占了绝大部分,所以在学习语言时,要先掌握这些常用词。词频规律被普遍应用于教学中,如语文教科书的编写、小学生需要掌握的词汇、中学生需要掌握的词汇、外语测试中的词库等,但在语言服务中,还没有发现直接的应用。

虽然词频被用在文本难度测量中,但在其他方面却没有体现,如屏幕取词服务就没有提供这种词频信息。即使提供了,意义也不大,因为屏幕取词是随机性的,和文本总体词汇分布及读者自身语言水平没有直接的相关性。但在目前技术条件下,在数字出版中提供与词频分布规律和读者语言水平相关的语言服务已经具有可实现性。

(5)不能提供对减少屏幕使用或网络阅读副作用的帮助

进入信息时代以来,阅读形式已多种多样,从是否使用电子阅读设备方面可分为纸质书阅读和屏幕阅读;从是否使用多媒体效果方面可分为普通文本阅读和多媒体阅读;从是否与网络连接方面可分为在线和离线阅读。

但如前面所述,虽然“屏”阅读、带有多媒体呈现形式的阅读和网络阅读为人类阅读带来了很多方便和乐趣,但也对人类的深度阅读和独立思考带来了很多副作用。例如,多媒体技术在阅读中的应用,不仅会打断纸质书阅读中文字描述带来的内心体验的深化,同时影响了个人想象力的发挥和思维的个性化展现。如文学作品和科技阅读中,如果过于频繁地使用音频和视频,会打扰对文字表述内容的深度理解,影响读者创造性的想象。同时,由于音频、视频内容如同电视剧一样,是通过“导演”设计的,不需要思考也可以理解,但却是别人的思维产品。由于这种产品的“媒体”强势,对读者产生较大的影响,不仅打扰了读者对原文的理解,而且把一种“相同”的思维导向传递给了众多的读者。目前对增强型电子书阅读的研究表明,增强型电子书阅读的互动性与线性阅读方式并不相同,它分散了儿童和家长的注意力,因此对其理解和专注力造成影响[26],而理解和专注力是形成个性化思想的重要因素。

目前数字出版服务提供的语言服务中,除了电子书阅读器中的内置词典,其他“屏”阅读中的词汇服务,如屏幕取词、朗读和例句显示等,都是网络在线环境实现的。如何帮助人们在离开网络,在绿树荫下、小溪河旁享受传统的纸质书阅读时也能获得与“在网”时一样的语言服务,即利用了现代技术的帮助,同时又恢复人类被“网”所束缚的自由是具有非常积极意义的探索。