长篇外文文学原著的词汇抽取策略对于长篇文学作品,由于内容的连续性,读者是从前至后连续阅读的。对于汉语,可根据词频字典进行抽取。......
2023-11-23
如前面所述,自然语言处理(Natural Language Processing,简称NLP)技术、云计算和数字出版技术的发展使在外文原版教材出版时提供词汇抽取服务和难句服务成为可能。虽然外文原版教材中的难句抽取与文学类中的难句抽取存在一些区别,但由于基于传统文本难度算法进行的难句抽取一般只是涉及句长和词长标准的改变,抽取原理存在很大的共性,这里就不进行讨论了,下面只是重点说明词汇抽取的问题。
对于一本原版教材来说,一般所包含的词汇量很大,不仅包括普通词汇,并且包含很多只能在专业词典中查到的专业术语,而每个学生的外语水平也不同,遇到的生词差异会很大,所以要有效地抽取出符合个人情况的生词,并以方便学习的形式显示,需要考虑抽取和显示中的各个细节问题。
1.普通词汇的抽取(指原版教材中的非专业词汇)
1)由于每本教材中的词汇量和词汇分布情况不同,可对数字平台上销售的每本教材分别进行词频统计,形成对应该书的不同频段的词汇表,读者根据自己的需要下载这些词汇表。对于初中级外语水平的读者,从频率居前3000、4000开始至低频段的词汇可能较合适;对于语言水平较高的读者,可能从频率居前7000或10000开始至更低频的单词是合适的。
2)利用词频词典进行普通词汇抽取。如果读者外语水平较低,阅读原版教材困难会较大,但仍可以通过提供的词汇表,进行更有效的阅读和语言学习。
3)英语原版教材词汇抽取中,也可考虑通过词库类别进行词汇抽取。具体实现可采用下面两种方法:
①通过这些词库类别直接进行词汇抽取,形成专门的对应不同词库的词汇表,满足不同读者的需要。
②通过词典抽取出教材中所有满足一定词频段要求的词汇,然后再通过与不同词库中的词汇相比较,在抽取的词汇表中添加相应标记,如英国的雅思,美国的托福、GRE等词库标识。
2.专业术语的抽取
外文原版教材中有很多专业术语,即某一学科领域所特有或专用的语汇。教材是讲解专业知识的,因此教材内容必定是基于这些专业词组展开的,如果不知道词汇的专业含义,好像词都认识,但看不懂句子。尽管术语只占全文的5%~10%,但它们却构成科技英语翻译与其他文体翻译的根本区别[9]。因此阅读原版教材时,专业术语是正确理解教材内容的关键和难点。专业术语可能是一个词为单位的专业单词,也可能是由多个词构成的专业词组,但在一般的字典上是查不到的,只能使用专业词典[10]。
上面所述的词汇抽取策略是针对普通词汇,只能得到词汇的常规解释,还需要通过专业词典解决专业术语的抽取问题。对于大部分原版教材来说,由于其只是涉及某一个专业,所以只需在原版教材编辑完成后转换成可以运行词汇抽取软件的文件格式,如纯文本等,通过相应的软件工具进入对应的专业词典,抽取出其中的专业术语,形成专业词汇表供读者下载。专业术语抽取时,可参考普通词汇按词频分段的方法,列出不同频段的专业词汇,以利于学生学习和记忆。为了与普通词汇表相区别,每个专业术语后应添加专业标记。
如果是包含多个专业知识的综合类原版教材,则需要分别进入不同的专业词典进行专业术语的抽取。由于专业词典一般存在一词多域多义和一词多域同义的现象,即同一个词汇可能会出现在不同的专业词典中,在不同专业领域具有不同的意义,也可能具有相同的意义[11]。对于一个存在于多个专业词典中的词汇,会被抽取多次,所以需要注意减少数据冗余,方便读者学习。较好的方法是对于多域同义的单词,词汇本身和释义在词汇表中出现一次,但释义后要记录不同的专业标记;对于多域多义的词汇,词汇本身出现一次,在每个不同专业释义后要分别添加专业标记。(www.chuimin.cn)
外文原版教材中的专业词汇抽取流程图如图5-2所示。
图5-2 外文原版教材中的专业词汇抽取流程图
注:1.进行专业词汇表频段划分时,可根据实际情况,如教材中专业词汇数量多少确定专业词汇表频段个数,原则是通过分散词汇数量在多个词汇表中,即方便查看,也减轻由于词汇量集中对读者带来的在心理层面对词汇学习的负担。
2.对于一本原版教材中包括多个专业内容的情况,专业词汇表抽取、合并涉及的问题较复杂,既要减少数据冗余,又要方便读者查看,包括页码等,同时还要兼顾词频的问题。主要的原则是减少出版社人员的工作量和方便读者使用。
3.词汇的处理和显示
首先,上面谈到的词汇抽取策略中,如果采用每本教材分别进行词频统计的方法,抽取的词汇文件需要修订后才能提供给读者,因为有时候,一些单词的难度和频率相关度不高,比如同形异义词和“问题词”(problem words)[10]。其次,供下载的词汇表是分为普通词汇表和专业词汇表两个部分,由于两部分词汇的性质有差异,所以属性字段的设置有所不同。
对于普通词汇表,和文学著作中的处理方法一样,下载后的词汇表能按页码、章节、频率段或字母顺序自由排序和筛选,并允许读者自由编辑。对于专业词汇表,当一个词出现在多个不同页中时,只在每章记录一次即可。
关于词汇的发音部分,可根据教材使用者的情况来定。对低年级学生或本科生使用的教材,因为学生外语水平还较低,可以提供普通词汇发音。对于专业词汇来说,很多时候是多于一个词构成的,难以从词典中直接提取,可以不提供发音。
为了更好地了解学生在使用一本外文原版教材时的遇到的情况,对于可在线阅读的教材,如果可行的话,出版社平台还可以根据电子阅读的读者语言水平级别分类,收集读者在电子阅读中选定的词汇和难句抽取信息,进行分析和归纳整理,形成经验数据文件,用于改进抽取策略和提供给对应纸质书的读者参考。
而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
从人类的认知过程来看,印刷文本为线性文本,可呈现连续的信息流。如果能对一本电子书中的词汇进行某些统计处理和分析,把相应的词汇及其解释抽取出来形成词汇表文件供下载。......
2023-11-23
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。......
2023-11-23
表4-1 数字出版词汇抽取涉及的出版物形式属性分类表2.词汇抽取内容策略分类对于不同内容和题材的数字出版物,词汇抽取的内容和词汇表所包含的属性内容是不同的,如文学作品只需抽取普通词汇,专业书籍中不仅有普通词汇还有专业词汇。......
2023-11-23
抽取的词汇形成词汇表提供给读者时,为了方便读者的查询或有利于记忆和学习词汇,显示属性设置是否合理非常重要。除了必须的词汇原型及释义外,对其他的显示属性也需要认真考虑。如英语中给出音标标注和发音,汉语中给出拼音标注和发音等。需要注意的是在词汇表显示属性设置相同的情况下,对于读者群不同的书籍,在具体的显示方式上,需要考虑学习对象的特点,提供不同的显示方式。......
2023-11-23
相关推荐