首页 理论教育外文文学原著出版需要语言处理技术助力,提供词汇抽取服务

外文文学原著出版需要语言处理技术助力,提供词汇抽取服务

【摘要】:从人类的认知过程来看,印刷文本为线性文本,可呈现连续的信息流。如果能对一本电子书中的词汇进行某些统计处理和分析,把相应的词汇及其解释抽取出来形成词汇表文件供下载。

1.电子文本外文阅读

对于外语学习来说,阅读外文原著的目的之一是在实际的语境中,在接触目的语的过程中记忆生词。如Clip-perton指出,外语学习中脱离初期阶段后,在通过教材学习的同时,必须加大课外阅读量,学习者通过上下文有可能学到词汇,但通过单词表来提高词汇量仍然不失为一种有效的办法。如果要想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆新单词应该是较好的、也是最直接的办法[2,3]

现在,电子词典和语料库技术的使用,使得词典和翻译软件在电子阅读的过程中能自动提供生词的解释和例句。如果能对生词和难句添加下划线等进行标注,不仅能抽取生词,而且可以抽取不理解的难句,把抽取的内容形成文件,并使其能按页码和章节进行筛选显示(不是像现在这样只是按字母和出现顺序显示不提供筛选功能),然后对该文件进行打印或抄写供复习用,那么会对改进阅读质量很有帮助。

从人类的认知过程来看,印刷文本为线性文本,可呈现连续的信息流。当读者阅读时,要求在他们的头脑中建立起内容的心理表征。读者从头至尾阅读时,信息加工是连续的。线性文本还能提供给读者一些定向线索,如页码、章节和标题等,它们可帮助读者再次获得方向[4]。根据不同的章节进行筛选,能在人的意识中产生连续和整体的感觉并方便读者随机选择阅读内容。因为有的读者可能会选择先记住他所喜爱的章节里的生词,然后对那部分进行更好质量的阅读。当在一页中含有较多生词时,根据页码筛选出生词,读者经过有意识记忆后,可通过阅读对应的页,方便地检查自己的词汇学习效果。对抽取的难句,经过有意识的分析和学习,不仅对语言学习本身有利,同时有助于更好的理解原著。此外,当读者再次阅读时,上次阅读所做的标记可以从心理上减少陌生感、增加自信心等。因此,标注、抽取词汇和难句功能可以把阅读中的偶然学习与有意识的学习结合起来,加强语言学习深度。当然,如果允许抽取的内容过多,可能涉及版权问题,但通过能进行识别和判断的软件控制,特别是将来通过云平台提供强大而有效的功能,这个问题可以解决。(www.chuimin.cn)

2.纸质书外文阅读

随着数字出版业的发展,越来越多的出版社将同时销售电子书和纸质书。如果能对一本电子书中的词汇进行某些统计处理和分析,把相应的词汇及其解释抽取出来形成词汇表文件供下载。当一个读者从某个网络书店买了一本外文纸质书时,他(她)可以到该书的出版社网络平台下载相应的词汇表文件,下载的词汇表文件可以根据生词在相应页码或章节中的出现次序进行筛选显示,并与他们的外语水平相符(如果能同时提供对应的难句列表和难句的分析文件就更好),则会对读者的外文阅读提供帮助,即能在很大程度上帮助读者减少阅读挫折,也方便读者复习生词和更好地理解原著。以在页码或章节中的出现次序显示生词可以使读者在阅读过程中方便快捷地查找生词的解释,读者可以在不同的设备上显示词汇表,如电脑显示器、手机等,也可以打印或抄写。以页码或章节为单位抄写生词,然后阅读对应的页或章节原文,这个过程本身就是一种有效的学习外语的方法。