从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。......
2023-11-23
目前,利用语料库编纂词典已经成为一种普遍的方法。第一部以语料库为基础的英语词典于1987年问世,这给全球英语词典的编纂带来了根本性的变革。短短十年之内,所有主要的英语学习词典出版社都把语料库作为其首要的语料来源。双语词典[例如《牛津-阿歇特英法词典》(Oxford-Hachette English-French Dictionary)]和以本族语者为目标用户的单语词典(例如《牛津英语词典》)都很快跟进。因此,现在编写英语词典(或者在英国出版双语词典)时几乎没有不利用语料库的。而利用语料库编辑词典,不仅是编辑过程本身的改进,同时还产生了其他的优势。
1.词典使用者直接使用语料库信息的机会
到目前为止,词典呈现从语料库中所获得信息的方式大多数都是隐性的。“隐性”呈现方式是指对语料库数据的分析将帮助词典编纂者对一些编纂问题做出决策,如词义(某一语词有多少义项)、片语(哪些短语或搭配值得凸显)、句法特征(哪些句法结构需要收入词典中)等等。同样,从语料库中所获得的词频信息为词典编纂者决定选词立目和义项排序(例如,哪个义项该排在前面)等决策提供了依据。又如,对学习者语料库的分析使我们在词典中凸显学习者可能感到困难的某些用法,或者通过用法说明来解释学习者时常混淆的语词差异。这样,只有词典编纂者能够看到从语料库中所获得的信息,最终的词典使用者却无法看到,但新科技给词典编纂者提供了让词典使用者直接使用语料库信息的机会。
(1)词频信息
在词典中提供词频信息可视作词典迈向显性应用语料库数据的第一步。1995年出版的新版朗文词典和COBUILD学习词典都引入了系统的词频信息。在此之前,衡量一个单词“重要性”的唯一指标就是词典用于解释该词的篇幅。但是,有了大型语料库以后,我们现在可以提供更加精确的信息,比如,可以让词典使用者看到像let、allow和permit这类近义词的相对频率。多数学习词典还通过词频来确定其核心基础词,即学习者需要掌握以便正确使用的词汇。例如,“牛津3000词”或《麦克米伦英语词典》(Macmillan English Dictionary)的7500个“红体词”。麦克米伦认为,词典中套红印刷的7500个最常用词目对语言产出极为重要,因此都予以详细的解释。相反,对一些使用频率较低的词汇(黑色印刷)通常只给出最基本的释义,有时也可能标注语域。
(2)搭配信息
搭配是语言的共性,是文本“地道”与否的关键之一(也许是最关键点)。对学习者来说,其重要性怎么强调都不过分,如汉语“穿衣服”,“戴帽子”,不能说成“戴衣服”,“穿帽子”。所以,词典——从最早期的学习词典开始——已经努力去记录语词的搭配特征。现在,科技的发展使我们在这一领域可以做得更多,词典编纂者通常都可以通过词汇描述软件,获得更全面和详细的语词搭配信息。如不同的语域和文本类型会有不同的搭配方式,这些搭配方式都可以显性记录下来。比如,一个语词在学术论文中的搭配可能会不同于它在普通文本中的搭配。对那些需要进行学术写作的词典使用者来说,这类信息具有极大的价值。(www.chuimin.cn)
现在,大部分学习词典都提供有关词频及搭配方面的信息,并且来自学习者语料的信息也开始以更为明显的方式呈现给词典使用者。同时,电子词典能够提供更多的信息来弥补在印刷词典(纸质词典的篇幅显然有限)中的不足。目前词典所展示的都是其编纂者对现有语言数据的选择和提炼,将来会出现一种类型的词典,可以让使用者自己看到这些语言数据,然后他们自己总结出语词的意义和用法[10]。
2.计算词典学
随着数字科技技术的发展,传统词典学和计算机科学不断结合,已经产生了新的词典学分支,计算词典学。计算词典学的研究对象主要是基于数字化技术而编纂的各种词典,包括供人使用和供机器使用的词典。供人使用的词典存在形式多样,有些以印刷版词典为蓝本进行数字化转换,有些利用语料库和印刷版词典编纂,有些完全以语料库为基础编纂;这类词典涵盖以数字化科技为基础编纂的印刷本词典、光盘词典、掌上电子词典、手机词典和网络词典等。供机器使用的词典内置于计算机等数字化设备中,帮助实现信息的自动化处理[11]。
从形成的历史来看,计算词典学首先是解决词典知识内容的“电子化”和“机读性”问题,其次是研究如何使用计算机进行词典的辅助编纂、编辑和修订,力争在不远的将来达到词典编纂和修订半自动化的目标,最终向基本自动化的方向发展;其三是对现有的印刷版词典进行电子化改造,或设计编纂专门供人阅读的包括网络词典在内的电子词典[12]。
随着数字化技术的发展,将进一步推动计算词典学研究的发展,进而推动词典编纂理念的革新,促使词典编纂技术和词典质量不断提高。
从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
1978年5月,上海推出了一台汉字信息处理实验样机。图7-1 汉字处理框图由于计算机只能直接处理和保存以二进制数字形式存在的信息,因此所有字符必须经过编码后才能被计算机处理。汉字区位码是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。......
2023-11-23
但是DVD电影的这一特性却使学生很有可能太放松,他们感觉不到来自电影对他们的要求,电影不会要求他们回答问题。DVD电影提供丰富地道的语言输入,包括一些书面上甚少出现的口语语素,是非常好的语言学习资料。......
2023-11-23
英文自动校对的研究大约始于20世纪60年代。同时,一些学者提出了拼写检查和语法检查的方法,对英文错误进行自动拼写改正。英文文本的自动校对基本以词的校对为核心,在“非词错误”和“真词错误”两个层次上进行。英文文本中非词错误的比例较大,所以较容易做出实用的英文校对系统。国内在文本自动校对方面的研究主要是针对汉语文本开展的。所以中文文本自动校对系统还需与人工校对相互补充,才能保证校对质量。......
2023-11-23
目前,语料库是自然语言处理统计方法的基础,在自然语言处理的研究中占有不可替代的地位。按语料库的结构划分语料库可以分为平衡结构语料库和自然随机结构的语料库。按语料库的用途划分语料库可分为通用语料库和专用语料库。利用语料库从事语言研究,可以克服传统语言学研究中的很多困难和不足。......
2023-11-23
相关推荐