首页 理论教育普通词汇抽取技术-数字出版中的语言服务

普通词汇抽取技术-数字出版中的语言服务

【摘要】:普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。

普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。但是,在进行词汇抽取时,对于长篇文学作品或专著来说,一本书是一个整体;而对于短篇文学作品或期刊文献来说,每一篇的内容都是独立的,所以抽取时情况不同,需分别加以考虑。

1.长篇作品的词汇抽取

(1)对一本书整体进行词频统计,形成不同频段的词汇表

由于每本作品中的词汇量和词汇分布情况不同,可对数字平台上销售的每本书分别进行词频统计,形成对应该书的不同频段的词汇表,读者根据自己的需要下载这些词汇表。但具体的词频分段标准,需要考虑书籍的读者情况。例如,目前的数字出版发布平台几乎都是跨越国界的,一本书对其本国的读者来说是母语阅读,但对于他国的读者来说,则属于外文书籍。词汇抽取需分别考虑母语读者和外语读者的需要。

通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。但通过该方法抽取的词汇文件需要修订后才能提供给读者,因为有时候,一些单词的难度和频率相关度不高,比如同形异义词和“问题词”(Problem Words)[6]

(2)利用词频词典进行抽取

目前,随着语料库技术的发展,以大型语料库为基础,研究一种语言中词频分布并形成词频词典成为可能。以英语为例,美国当代英语词汇研究(Corpus of Contemporary American English)项目建立了4亿词汇的文献资料库,美国杨百翰大学对这个资料库用计算机方法筛选出了美语使用频率最高的100000个高频词汇和它的类词库[7]。英语的词汇抽取可以以该研究的词汇标准为参考,来实现对作品中对应于不同词频段的词汇抽取。(www.chuimin.cn)

利用语言研究成果或者说词频词典为参考的词汇抽取在抽取结果与上述直接通过书内词汇频率统计方法获得的词汇表可能会有差异,但其优点是从语言整体上而不是仅从原著本身体现词汇出现频率分布。

2.短篇作品的词汇抽取

对于短篇作品来说,每一篇的内容都是独立的,理论上讲,不能采用通过对一本书整体进行词频统计的方法抽取词汇表。较好的方法是通过以词频词典为参考的抽取策略,即以每篇作品为独立单位,把每篇文章的词汇按照词频抽取出属于各词频段的词汇,形成包括释义、页码、词频属性字段且可按页码、词频进行筛选的对应每篇作品的常规单词表。

3.通过词库类别进行词汇抽取

除了使用上述抽取策略外,无论对于长篇作品还是短篇作品,也可考虑增加词库类别进行词汇抽取。对于一门语言,有很多不同种类的测试和与其对应的词库。如英语,有中国大学的英语四级、六级词汇,英国的雅思,美国的托福、GRE等。汉语有HSK一级到HSK六级等,可根据书籍对应的读者情况,按需要根据这些词库类别直接进行词汇抽取,满足不同读者的需要。如对于一个计划参加GRE考试的学生来说,会对词汇表中带有GRE标识的词汇产生更强的记忆动机。