而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。但是,在进行词汇抽取时,对于长篇文学作品或专著来说,一本书是一个整体;而对于短篇文学作品或期刊文献来说,每一篇的内容都是独立的,所以抽取时情况不同,需分别加以考虑。
1.长篇作品的词汇抽取
(1)对一本书整体进行词频统计,形成不同频段的词汇表
由于每本作品中的词汇量和词汇分布情况不同,可对数字平台上销售的每本书分别进行词频统计,形成对应该书的不同频段的词汇表,读者根据自己的需要下载这些词汇表。但具体的词频分段标准,需要考虑书籍的读者情况。例如,目前的数字出版发布平台几乎都是跨越国界的,一本书对其本国的读者来说是母语阅读,但对于他国的读者来说,则属于外文书籍。词汇抽取需分别考虑母语读者和外语读者的需要。
通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。但通过该方法抽取的词汇文件需要修订后才能提供给读者,因为有时候,一些单词的难度和频率相关度不高,比如同形异义词和“问题词”(Problem Words)[6]。
(2)利用词频词典进行抽取
目前,随着语料库技术的发展,以大型语料库为基础,研究一种语言中词频分布并形成词频词典成为可能。以英语为例,美国当代英语词汇研究(Corpus of Contemporary American English)项目建立了4亿词汇的文献资料库,美国杨百翰大学对这个资料库用计算机方法筛选出了美语使用频率最高的100000个高频词汇和它的类词库[7]。英语的词汇抽取可以以该研究的词汇标准为参考,来实现对作品中对应于不同词频段的词汇抽取。(www.chuimin.cn)
利用语言研究成果或者说词频词典为参考的词汇抽取在抽取结果与上述直接通过书内词汇频率统计方法获得的词汇表可能会有差异,但其优点是从语言整体上而不是仅从原著本身体现词汇出现频率分布。
2.短篇作品的词汇抽取
对于短篇作品来说,每一篇的内容都是独立的,理论上讲,不能采用通过对一本书整体进行词频统计的方法抽取词汇表。较好的方法是通过以词频词典为参考的抽取策略,即以每篇作品为独立单位,把每篇文章的词汇按照词频抽取出属于各词频段的词汇,形成包括释义、页码、词频属性字段且可按页码、词频进行筛选的对应每篇作品的常规单词表。
3.通过词库类别进行词汇抽取
除了使用上述抽取策略外,无论对于长篇作品还是短篇作品,也可考虑增加词库类别进行词汇抽取。对于一门语言,有很多不同种类的测试和与其对应的词库。如英语,有中国大学的英语四级、六级词汇,英国的雅思,美国的托福、GRE等。汉语有HSK一级到HSK六级等,可根据书籍对应的读者情况,按需要根据这些词库类别直接进行词汇抽取,满足不同读者的需要。如对于一个计划参加GRE考试的学生来说,会对词汇表中带有GRE标识的词汇产生更强的记忆动机。
而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。......
2023-11-23
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
从这些数据可以看出,中文信息处理的第一步自动分词和词性标注尚未达到实用的要求,需要努力的道路还很长,正确率能够提高的空间也很大。是否应该考虑开发适合中文的分析体系?......
2023-11-23
从人类的认知过程来看,印刷文本为线性文本,可呈现连续的信息流。如果能对一本电子书中的词汇进行某些统计处理和分析,把相应的词汇及其解释抽取出来形成词汇表文件供下载。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
相关推荐