首页 理论教育数字出版中的自然语言处理技术助力语料库

数字出版中的自然语言处理技术助力语料库

【摘要】:目前,语料库是自然语言处理统计方法的基础,在自然语言处理的研究中占有不可替代的地位。按语料库的结构划分语料库可以分为平衡结构语料库和自然随机结构的语料库。按语料库的用途划分语料库可分为通用语料库和专用语料库。利用语料库从事语言研究,可以克服传统语言学研究中的很多困难和不足。

目前,语料库是自然语言处理统计方法的基础,在自然语言处理的研究中占有不可替代的地位。同时语料库在语言学研究领域有广泛的应用,是语言研究现代化的重要基础,并已经形成了语料库语言学这样一门学科。

那么什么是语料库呢?简单地说,所谓语料库就是一定规模的真实语言样本的集合。一般而言,现代意义上的语料库具有下面三个特性[3]

1)收入语料库的语言材料应当取自实际使用的真实文本,对于其应用目标而言,所收录的语言材料应该具有代表性;

2)语料库应是机器可读的,是运用计算机技术获取、编码、存储和组织的,并支持基于计算机技术的分析和处理;

3)收入语料库的语言材料经过适当的标注和加工处理,例如经过词语切分或者词类标注处理。

1.语料库类型

目前,世界上已建成的语料库很多,根据语料库的应用目标、设计原则和所涉语言的数量、语料的文本类型等,可以把语料库分成不同的类别,下面说明几种主要的分类方法,如图3-6所示。

978-7-111-47385-5-Chapter03-6.jpg

图3-6 语料库分类方法

(1)按语料选取的时间划分

语料库可以分为历时语料库和共时语料库。共时语料库收录某个特殊时段的书面语或者口语语料,如布朗语料库和LOB语料库收录的都是发表于1961年的英语文本;而历时语料库则收录发表时间分布在一个较长历史时段的语料,一般用来支持语言演化研究,如赫尔辛基英语语料库收录的语料跨越了从公元700年到公元1700年共1000年的时间。

(2)按语料库的结构划分

语料库可以分为平衡结构语料库和自然随机结构的语料库。平衡语料库预先设计语料库中语料的类型,定义每种类型语料所占的比例,并按这种比例组成语料库,如众所周知的Brown语料库就是一个平衡语料库的典型代表。(www.chuimin.cn)

(3)按语料库的用途划分

语料库可分为通用语料库和专用语料库。通用语料库的设计和加工要充分考虑对语料库的各种可能的应用需求,要尽可能地用大多数人都接受的语言理论做指导;专用语料库则根据各自的服务目标而采用不同的设计原则,如面向词典编纂的语料库、研究某国儿童语言习得而建的语料库、用于外语教学研究的中介语料库或学习者语料库。

(4)按语料语种的数量划分

语料库可分为单语语料库和多语语料库。目前大多数语料库是单语语料库。多语语料库可以分成多语平行语料库和多语对比语料库,其中平行语料库收录的不同语种的语料需要具有翻译关系,因此也称作翻译语料库。

(5)语料库还可分为口语语料库和文本语料库

口语语料库的语料是口语录音,常常需要人工将录音转录为文本文件。

(6)按语料库的更新方式划分

语料库可分为动态语料库和静态语料库,动态语料库又称监控语料库,其中的语料会随着时间定时更新,而静态语料库一般在建成之后不再进行更新。监控语料库动态更新的目的是希望可以跟踪语言的发展演变,提取新词和发现新的用法,对于词典编纂者特别有用。

(7)其他

语料库还可分为样本语料库和全文语料库。样本语料库从文章中摘录一段文字作为语料库中的一条样本记入语料库;全文语料库中的每一个语料都是一篇文章的全文。

2.语料库与自然语言处理

语料库在语言研究、词典编纂以及自然语言处理等领域都在发挥着重要作用。语料库成为基于统计的自然语言处理研究方法的基础,在自然语言处理的每一个应用领域都有广泛的应用。语料库在语言学研究领域也有广泛的应用,成为语言研究现代化的重要基础。利用语料库从事语言研究,可以克服传统语言学研究中的很多困难和不足。例如,能解决语料的客观性不强、语料占有量不大、工作量大、效率低及语料的共享性不够等困难[4]。语料库在语言学研究中主要的应用领域包括:词典编纂;语言统计;语言监控;新词、新用法的发现;语言教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研究;方言研究等。