从人类的认知过程来看,印刷文本为线性文本,可呈现连续的信息流。如果能对一本电子书中的词汇进行某些统计处理和分析,把相应的词汇及其解释抽取出来形成词汇表文件供下载。......
2023-11-23
外文文学原著阅读一直被认为是外语学习中一个有效的方法,其为学习者提供了语言习得的语境,阅读中可以做到与单词的大量密切接触,而且读上手之后不会令人心烦,在了解和学习不同文化和知识、开发智力的同时,也是学习单词、强化语言学习的直接方法。例如较早的已经被改变为电影的《飘》、《简·爱》、《基督山伯爵》和《红与黑》等外国文学名著,近几年的改编为电影的《哈利波特》、《达·芬奇密码》、《暮光之城》和《黑客帝国》等。通过这些文学作品能带给我们非常美妙的情感文化体验,同时能对我们的外语学习,无论是阅读、写作还是口语都产生非常积极的帮助。实践证明,外文原著阅读可以全方位地提高阅读者的外语水平,我国教师许连赞2001年通过让学生阅读原著的方法使得学生的口语能力大幅提高,受到了外交官的好评[1]。
外文原著阅读的难点是在刚开始时,由于生词较多,容易产生阅读挫折。当所选读物的阅读难度和内容不合适时,就更明显。相信很多想学好外语的人,都曾买过一本或几本外国名著类的外文原版书,但读起来好像不容易,即使对于外语水平较好的读者,他或她能读美国现代流行小说,但是否有耐力去读在意义上更严肃、语言难度更大的作品就不一定了。想一想,如果在读一本外文名著之前,其中的生词已经按照你的语言水平等级提取出来,给出释义,并且按页码和章节排列好;其中的难句,你已经在读该部作品之前在某个论坛上,通过和朋友们的讨论、友人的指导已有所了解,那么你再读这部作品时,阅读难度就会降低。如果在阅读期间,在阅读平台上和朋友们讨论书中故事情节、作者的意图等,分享阅读心得,则该部作品的阅读变得更容易一些。更近一步,在你选择要读的外文原著之前,出版社已经对各本书的内容、语言难度等给出介绍,你选择的书籍适合你的兴趣,语言难度符合你的语言水平,那么,你完成该部原著的阅读就很容易。而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。
目前利用基于自然语言处理中的词汇抽取和语料库技术等实现的屏幕取词和翻译软件等,能为解决电子阅读中的词汇问题提供一些帮助,但功能还不完善;纸质书阅读还只能利用古老的查词典方法解决词汇问题。对于将来可能会大批出现的MPR读物,即具有多媒体辅助功能的纸质书,虽然通过阅读器可以在阅读时听词汇的发音,但对指定词汇的预习和复习,因其不能随机迅速返回原语境,还不具有本书提出的词汇抽取的优势。(www.chuimin.cn)
现在越来越多的出版社同时销售电子书和纸质书,如果这些出版社的数字出版平台不仅为电子书也能为相应纸质书的阅读提供语言服务,就能使纸质书读者同样可以享受现代技术带来的便利,更有效和方便地阅读外文文学原著,而词汇提取服务就可以实现这一目标。
本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。
从人类的认知过程来看,印刷文本为线性文本,可呈现连续的信息流。如果能对一本电子书中的词汇进行某些统计处理和分析,把相应的词汇及其解释抽取出来形成词汇表文件供下载。......
2023-11-23
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
“中国语言文学”和“外国语言文学”均为一级学科,“语言学及应用语言学”为下设的二级学科。但中国语言学还在作为二级学科设置,难以与国际上语言学研究发展的趋势和时代发展需要相适应[7]。中国境内的少数民族语言也是整个中华民族和祖国大家庭的宝贵财富。所以,将中国语言学设置为一级学科问题,是促进中文信息处理的发展所必需。......
2023-11-23
鉴于现代技术不断发展,特别是云计算的出现以及人工智能领域的研究成果将来在数字出版中的应用,数字出版中可能会出现更多的语言层面的服务形式。同时结合目前已经存在的一些自然语言处理在数字出版中的应用形式,如文版编辑与校对、词典编辑和文本难度等,才提出数字出版语言服务这一理念。......
2023-11-23
3)英语原版教材词汇抽取中,也可考虑通过词库类别进行词汇抽取。对于一个存在于多个专业词典中的词汇,会被抽取多次,所以需要注意减少数据冗余,方便读者学习。......
2023-11-23
相关推荐