此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
目前,语料库是自然语言处理统计方法的基础,在自然语言处理的研究中占有不可替代的地位。同时语料库在语言学研究领域有广泛的应用,是语言研究现代化的重要基础,并已经形成了语料库语言学这样一门学科。
那么什么是语料库呢?简单地说,所谓语料库就是一定规模的真实语言样本的集合。一般而言,现代意义上的语料库具有下面三个特性[3]:
1)收入语料库的语言材料应当取自实际使用的真实文本,对于其应用目标而言,所收录的语言材料应该具有代表性;
2)语料库应是机器可读的,是运用计算机技术获取、编码、存储和组织的,并支持基于计算机技术的分析和处理;
3)收入语料库的语言材料经过适当的标注和加工处理,例如经过词语切分或者词类标注处理。
1.语料库类型
目前,世界上已建成的语料库很多,根据语料库的应用目标、设计原则和所涉语言的数量、语料的文本类型等,可以把语料库分成不同的类别,下面说明几种主要的分类方法,如图3-6所示。
图3-6 语料库分类方法
(1)按语料选取的时间划分
语料库可以分为历时语料库和共时语料库。共时语料库收录某个特殊时段的书面语或者口语语料,如布朗语料库和LOB语料库收录的都是发表于1961年的英语文本;而历时语料库则收录发表时间分布在一个较长历史时段的语料,一般用来支持语言演化研究,如赫尔辛基英语语料库收录的语料跨越了从公元700年到公元1700年共1000年的时间。
(2)按语料库的结构划分
语料库可以分为平衡结构语料库和自然随机结构的语料库。平衡语料库预先设计语料库中语料的类型,定义每种类型语料所占的比例,并按这种比例组成语料库,如众所周知的Brown语料库就是一个平衡语料库的典型代表。(www.chuimin.cn)
(3)按语料库的用途划分
语料库可分为通用语料库和专用语料库。通用语料库的设计和加工要充分考虑对语料库的各种可能的应用需求,要尽可能地用大多数人都接受的语言理论做指导;专用语料库则根据各自的服务目标而采用不同的设计原则,如面向词典编纂的语料库、研究某国儿童语言习得而建的语料库、用于外语教学研究的中介语料库或学习者语料库。
(4)按语料语种的数量划分
语料库可分为单语语料库和多语语料库。目前大多数语料库是单语语料库。多语语料库可以分成多语平行语料库和多语对比语料库,其中平行语料库收录的不同语种的语料需要具有翻译关系,因此也称作翻译语料库。
(5)语料库还可分为口语语料库和文本语料库
口语语料库的语料是口语录音,常常需要人工将录音转录为文本文件。
(6)按语料库的更新方式划分
语料库可分为动态语料库和静态语料库,动态语料库又称监控语料库,其中的语料会随着时间定时更新,而静态语料库一般在建成之后不再进行更新。监控语料库动态更新的目的是希望可以跟踪语言的发展演变,提取新词和发现新的用法,对于词典编纂者特别有用。
(7)其他
语料库还可分为样本语料库和全文语料库。样本语料库从文章中摘录一段文字作为语料库中的一条样本记入语料库;全文语料库中的每一个语料都是一篇文章的全文。
2.语料库与自然语言处理
语料库在语言研究、词典编纂以及自然语言处理等领域都在发挥着重要作用。语料库成为基于统计的自然语言处理研究方法的基础,在自然语言处理的每一个应用领域都有广泛的应用。语料库在语言学研究领域也有广泛的应用,成为语言研究现代化的重要基础。利用语料库从事语言研究,可以克服传统语言学研究中的很多困难和不足。例如,能解决语料的客观性不强、语料占有量不大、工作量大、效率低及语料的共享性不够等困难[4]。语料库在语言学研究中主要的应用领域包括:词典编纂;语言统计;语言监控;新词、新用法的发现;语言教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研究;方言研究等。
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。......
2023-11-23
从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
目前,我国许多高校“看电影学外语”的教学模式为越来越多的教师所采纳和应用。在原版电影中学生能接触到大量形象生动、标准地道的生活语言,从而充分调动学生的语言学习积极性,有利于培养学生的语感和听说能力。自20世纪80年代至今,国内外众多学者,一直不断地对英文电影在教学中的应用展开研究,人们已经逐渐认识到原版电影在大学英语教学的诸多优势。......
2023-11-23
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
相关推荐