首页 理论教育数字出版助于阅读:词典编纂与语料库技术

数字出版助于阅读:词典编纂与语料库技术

【摘要】:目前,利用语料库编纂词典已经成为一种普遍的方法。计算词典学的研究对象主要是基于数字化技术而编纂的各种词典,包括供人使用和供机器使用的词典。随着数字化技术的发展,将进一步推动计算词典学研究的发展,进而推动词典编纂理念的革新,促使词典编纂技术和词典质量不断提高。

目前,利用语料库编纂词典已经成为一种普遍的方法。第一部以语料库为基础的英语词典于1987年问世,这给全球英语词典的编纂带来了根本性的变革。短短十年之内,所有主要的英语学习词典出版社都把语料库作为其首要的语料来源。双语词典[例如《牛津-阿歇特英法词典》(Oxford-Hachette English-French Dictionary)]和以本族语者为目标用户的单语词典(例如《牛津英语词典》)都很快跟进。因此,现在编写英语词典(或者在英国出版双语词典)时几乎没有不利用语料库的。而利用语料库编辑词典,不仅是编辑过程本身的改进,同时还产生了其他的优势。

1.词典使用者直接使用语料库信息的机会

到目前为止,词典呈现从语料库中所获得信息的方式大多数都是隐性的。“隐性”呈现方式是指对语料库数据的分析将帮助词典编纂者对一些编纂问题做出决策,如词义(某一语词有多少义项)、片语(哪些短语或搭配值得凸显)、句法特征(哪些句法结构需要收入词典中)等等。同样,从语料库中所获得的词频信息为词典编纂者决定选词立目和义项排序(例如,哪个义项该排在前面)等决策提供了依据。又如,对学习者语料库的分析使我们在词典中凸显学习者可能感到困难的某些用法,或者通过用法说明来解释学习者时常混淆的语词差异。这样,只有词典编纂者能够看到从语料库中所获得的信息,最终的词典使用者却无法看到,但新科技给词典编纂者提供了让词典使用者直接使用语料库信息的机会。

(1)词频信息

在词典中提供词频信息可视作词典迈向显性应用语料库数据的第一步。1995年出版的新版朗文词典和COBUILD学习词典都引入了系统的词频信息。在此之前,衡量一个单词“重要性”的唯一指标就是词典用于解释该词的篇幅。但是,有了大型语料库以后,我们现在可以提供更加精确的信息,比如,可以让词典使用者看到像let、allow和permit这类近义词的相对频率。多数学习词典还通过词频来确定其核心基础词,即学习者需要掌握以便正确使用的词汇。例如,“牛津3000词”或《麦克米伦英语词典》(Macmillan English Dictionary)的7500个“红体词”。麦克米伦认为,词典中套红印刷的7500个最常用词目对语言产出极为重要,因此都予以详细的解释。相反,对一些使用频率较低的词汇(黑色印刷)通常只给出最基本的释义,有时也可能标注语域。

(2)搭配信息

搭配是语言的共性,是文本“地道”与否的关键之一(也许是最关键点)。对学习者来说,其重要性怎么强调都不过分,如汉语“穿衣服”,“戴帽子”,不能说成“戴衣服”,“穿帽子”。所以,词典——从最早期的学习词典开始——已经努力去记录语词的搭配特征。现在,科技的发展使我们在这一领域可以做得更多,词典编纂者通常都可以通过词汇描述软件,获得更全面和详细的语词搭配信息。如不同的语域和文本类型会有不同的搭配方式,这些搭配方式都可以显性记录下来。比如,一个语词在学术论文中的搭配可能会不同于它在普通文本中的搭配。对那些需要进行学术写作的词典使用者来说,这类信息具有极大的价值。(www.chuimin.cn)

现在,大部分学习词典都提供有关词频及搭配方面的信息,并且来自学习者语料的信息也开始以更为明显的方式呈现给词典使用者。同时,电子词典能够提供更多的信息来弥补在印刷词典(纸质词典的篇幅显然有限)中的不足。目前词典所展示的都是其编纂者对现有语言数据的选择和提炼,将来会出现一种类型的词典,可以让使用者自己看到这些语言数据,然后他们自己总结出语词的意义和用法[10]

2.计算词典学

随着数字科技技术的发展,传统词典学和计算机科学不断结合,已经产生了新的词典学分支,计算词典学。计算词典学的研究对象主要是基于数字化技术而编纂的各种词典,包括供人使用和供机器使用的词典。供人使用的词典存在形式多样,有些以印刷版词典为蓝本进行数字化转换,有些利用语料库和印刷版词典编纂,有些完全以语料库为基础编纂;这类词典涵盖以数字化科技为基础编纂的印刷本词典、光盘词典、掌上电子词典、手机词典和网络词典等。供机器使用的词典内置于计算机等数字化设备中,帮助实现信息的自动化处理[11]

从形成的历史来看,计算词典学首先是解决词典知识内容的“电子化”和“机读性”问题,其次是研究如何使用计算机进行词典的辅助编纂、编辑和修订,力争在不远的将来达到词典编纂和修订半自动化的目标,最终向基本自动化的方向发展;其三是对现有的印刷版词典进行电子化改造,或设计编纂专门供人阅读的包括网络词典在内的电子词典[12]

随着数字化技术的发展,将进一步推动计算词典学研究的发展,进而推动词典编纂理念的革新,促使词典编纂技术和词典质量不断提高。