首页 理论教育数字出版中的自然语言处理技术助力词典编纂

数字出版中的自然语言处理技术助力词典编纂

【摘要】:从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。

词典又作“辞典”,是收集词汇按某种顺序排列并加以解释供人检查参考的工具书。从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。世界上现存最古老的词典是公元前7世纪亚述帝国时编的苏美尔-阿卡德语双语难词表,中国最早的词典是中国西汉初编纂的《尔雅》。

随着人类社会和科学技术的发展,词典的类型和编纂及编辑方法都在发生变化,而计算机技术和自然语言处理技术的发展,特别是语料库语言学的出现,使词典的类型和编纂发生了根本性的变化,随着数字出版、移动阅读的兴起,词典的种类和应用也呈现新的形式。

牛津大学出版社2005年在英国推出基于英国国家语料库编纂的《牛津高阶英语词典》(Oxford Advanced Learner′s Dictionary)(第七版)对词典的定义是“是按字母顺序汇集的词语,提供词的释义或词在另一语言中的对应词的书;是汇集某一领域专业术语,并提供词在该专业领域中的释义的书;是以电子文本形式存在的词的集合”。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。(www.chuimin.cn)

词典编纂(Lexicography)是数字出版语言服务在数字出版产品形态方面的语言服务。随着现代技术的进一步发展,新的产品形式的出现,可能会出现新的数字出版产品形态方面的语言服务形式。