而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
1.电子文本外文阅读
对于外语学习来说,阅读外文原著的目的之一是在实际的语境中,在接触目的语的过程中记忆生词。如Clip-perton指出,外语学习中脱离初期阶段后,在通过教材学习的同时,必须加大课外阅读量,学习者通过上下文有可能学到词汇,但通过单词表来提高词汇量仍然不失为一种有效的办法。如果要想在短时间内大幅度提高词汇量,有计划地利用单词表来学习并记忆新单词应该是较好的、也是最直接的办法[2,3]。
现在,电子词典和语料库技术的使用,使得词典和翻译软件在电子阅读的过程中能自动提供生词的解释和例句。如果能对生词和难句添加下划线等进行标注,不仅能抽取生词,而且可以抽取不理解的难句,把抽取的内容形成文件,并使其能按页码和章节进行筛选显示(不是像现在这样只是按字母和出现顺序显示不提供筛选功能),然后对该文件进行打印或抄写供复习用,那么会对改进阅读质量很有帮助。
从人类的认知过程来看,印刷文本为线性文本,可呈现连续的信息流。当读者阅读时,要求在他们的头脑中建立起内容的心理表征。读者从头至尾阅读时,信息加工是连续的。线性文本还能提供给读者一些定向线索,如页码、章节和标题等,它们可帮助读者再次获得方向[4]。根据不同的章节进行筛选,能在人的意识中产生连续和整体的感觉并方便读者随机选择阅读内容。因为有的读者可能会选择先记住他所喜爱的章节里的生词,然后对那部分进行更好质量的阅读。当在一页中含有较多生词时,根据页码筛选出生词,读者经过有意识记忆后,可通过阅读对应的页,方便地检查自己的词汇学习效果。对抽取的难句,经过有意识的分析和学习,不仅对语言学习本身有利,同时有助于更好的理解原著。此外,当读者再次阅读时,上次阅读所做的标记可以从心理上减少陌生感、增加自信心等。因此,标注、抽取词汇和难句功能可以把阅读中的偶然学习与有意识的学习结合起来,加强语言学习深度。当然,如果允许抽取的内容过多,可能涉及版权问题,但通过能进行识别和判断的软件控制,特别是将来通过云平台提供强大而有效的功能,这个问题可以解决。(www.chuimin.cn)
2.纸质书外文阅读
随着数字出版业的发展,越来越多的出版社将同时销售电子书和纸质书。如果能对一本电子书中的词汇进行某些统计处理和分析,把相应的词汇及其解释抽取出来形成词汇表文件供下载。当一个读者从某个网络书店买了一本外文纸质书时,他(她)可以到该书的出版社网络平台下载相应的词汇表文件,下载的词汇表文件可以根据生词在相应页码或章节中的出现次序进行筛选显示,并与他们的外语水平相符(如果能同时提供对应的难句列表和难句的分析文件就更好),则会对读者的外文阅读提供帮助,即能在很大程度上帮助读者减少阅读挫折,也方便读者复习生词和更好地理解原著。以在页码或章节中的出现次序显示生词可以使读者在阅读过程中方便快捷地查找生词的解释,读者可以在不同的设备上显示词汇表,如电脑显示器、手机等,也可以打印或抄写。以页码或章节为单位抄写生词,然后阅读对应的页或章节原文,这个过程本身就是一种有效的学习外语的方法。
而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。......
2023-11-23
从这些数据可以看出,中文信息处理的第一步自动分词和词性标注尚未达到实用的要求,需要努力的道路还很长,正确率能够提高的空间也很大。是否应该考虑开发适合中文的分析体系?......
2023-11-23
3)英语原版教材词汇抽取中,也可考虑通过词库类别进行词汇抽取。对于一个存在于多个专业词典中的词汇,会被抽取多次,所以需要注意减少数据冗余,方便读者学习。......
2023-11-23
相关推荐