俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
自然语言处理中最难解决的是歧义问题。当我们向计算机中输入一个语段,让计算机根据人们设定的规则对其进行自动分析,从而推导出该语段的正确结构和意义时,计算机常常会得出多种分析结果,而这些结果中往往只有一种是正确的,这就是自然语言处理中的潜在歧义问题。
对于中文信息处理,由于汉语是表意文字,词与词之间是连写的。其句子中词与词之间的边界标志是隐含的,不像英语那样词与词之间有明显的空白,要用计算机进行汉语处理,第一步要进行的就是识别这些隐含的词语边界,把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。但因为把用汉字串表达的较大的语言单位(如句子或短语)切分为较小的语言单位(如短语或词)的过程中,存在大量的歧义,而分词是大部分中文信息处理系统的第一步(即前端),是对句子实施句法和语义分析的前提,该阶段的任何错误都将会严重影响以后句义、篇章等处理过程的正确性。所以,汉语分词成为中文信息处理中重要而又难以解决的问题。
例如,英文句子“Iamastudent”,用中文则为“我是一个学生”。计算机可以很简单地通过空格知道“student”是一个单词,但是不容易明白“学”、“生”两个字合起来才表示一个词。
又如,汉字串“白天鹅”到底是“白天鹅”还是“白天鹅”?只有当“白天鹅”这三个字出现在更长的上下文中,歧义才能消解。“白天鹅飞过来了”——白天鹅飞过来了。“白天鹅可以看家”——白天鹅可以看家。因为人根据经验和知识,天鹅是飞禽,鹅是家禽,从而得出正确判断。
又如,“大字典”应切分“大字典”,“大字本”则是“大字本”,而“高精尖”是3个词的并列:“高精尖”,“莫斯科”又不能切分。
此外,大多数中文处理系统依据汉语词典进行自动分词,但实用性词典中不可能登录所有的词语,因为汉语词汇丰富,而且新词不断出现,所以未登录词识别也是汉语自动分词中的困难问题。
如,“今天苏晓宁上班”中,由于不能正确识别人名“苏晓宁”,自动分词后的结果为——“今天苏晓宁上班”,这样就无法在下一步正确分析出句子结构意义。
在现实生活中,人们谈话的时候,遇到歧义的问题会通过思维分析自然解决,但计算机在处理自然语言的过程中需要自动分析很多层面,如词汇层、标点符号和句子等,由于计算机不具有人类的智能和灵活性,所以会产生分析结果的歧义[2]。多年来,汉语的词切分问题严重地影响了中文信息处理,或者说中文自然语言处理的发展。
目前,随着人类社会向数字环境下“智能社会”的发展,自然语言处理在信息处理中的作用越来越重要,中文分词成为文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术和难点。
经过过去20多年中的努力,中文分词在分词算法、歧义消除研究、未登录词研究、分词与词性标注评测等方面都已经取得了非常可喜的进步,并建立了一些中文分词系统。下面以中文分词算法和中文分词系统为例进行说明。
1.分词算法
在数学和计算机科学之中,算法(Algorithm)是一个计算的具体步骤,常用于计算、数据处理和自动推理,或者说算法代表用计算机解一类问题的精确有效的方法。
衡量一个分词算法优劣标准是分词速度与精度,所以各种算法是围绕精度与速度展开。目前中文分词算法很多,大致可归纳为:词典分词方法、理解分词方法、统计分词方法、组合分词算法[3]。
1)词典分词方法
按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。该方法需要确定三个要素:词典、扫描方向、匹配原则,包含两个核心内容:分词算法与词典结构。(www.chuimin.cn)
算法设计可从以下几方面展开:字典结构改进;改进扫描方式;将词典中的词按由长到短递减顺序逐字搜索整个待处理材料,一直到分出全部词为止。
2)理解分词方法
基本思想是分词同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。理解分词方法需要使用大量语言知识和信息,因此该方法需要用到人工智能技术。但由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3)统计分词方法
统计方法思想基础是,词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能够较好地反映成词的可信度,因此对语料中相邻共现的汉字的组合频度进行统计,计算他们的统计信息并作为分词的依据。常用统计量有词频、互信息、t-测试差等。
4)组合方法
由于单个方法虽有优点,但也存在不足,所以实际分词算法设计时需要组合几种方法,利用各自优点,克服不足,以更好解决分词难题。例如,字典与统计组合,分词与词性标注组合等。
2.中文分词系统
中文分词系统是利用计算机对中文文本进行词语自动识别的系统,一个高效的、性能优良的中文分词系统应该具备几个基本要素:分词准确度、分词速度、系统可维护性、通用性、适应性。
早期的分词系统由于受硬件条件及分词技术影响,在分词速度与精度上还不够理想,实用性不高,但现在的分词系统在分词速度与精度上明显提高,实用性越来越强,为中文信息处理带来很大方便。
1)中国科学院计算所汉语词法分析系统ICT-CLAS
ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System)是中国科学院计算技术研究所研制,主要功能包括中文分词、词性标注、命名实体识别、新词识别、支持用户词典、繁体中文、CBK、UTF-8、UTF-7、UNICODE等多种编码格式。目前ICTCLAS3.0分词速度单机为996KB/s,分词精度为98.45%,API不超过200KB,各种词典数据压缩后不到3MB。
2)海量智能分词研究版
海量智能分词系统较好地解决了分词领域中的两大技术难题:歧义切分和新词的识别。分词准确率达到99.6%,分词效率为2000万字/min。其中组合歧义的处理一直是分词领域的难点中的难点,海量分词系统能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率比较高。
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
国内汉语教材一贯重视词汇、语法编排的科学性与系统性,而忽略了课文的生动性、趣味性,对未成年学习者,这就成为一个主要问题。为了写出优秀的对外汉语用教材和儿童等读物,可以利用信息技术工具集中古今中外汉语名作,帮助语言学家扩大视野和优化写作。......
2023-11-23
在目前的数字出版服务中,人们主要关注的是疏通出版、消费渠道和丰富数字产品形式。但对数字出版为读者提供语言层面的服务,除了起源于美国的阅读分级服务,几十年来几乎没有新的进展。目前数字出版中的语言服务,有代表性的有以下几种:1)数字出版编辑中的语言服务:文字编辑与校对。3)数字出版面向读者的语言服务:文本难度。......
2023-11-23
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
图2-5 语言服务的局限性读物内容和语言难度信息缺乏为实现成功阅读,读者在选择读物时需要考虑内容和语言难度两个方面的因素,这两个因素在外文阅读中就更显重要。即使提供了,意义也不大,因为屏幕取词是随机性的,和文本总体词汇分布及读者自身语言水平没有直接的相关性。但在目前技术条件下,在数字出版中提供与词频分布规律和读者语言水平相关的语言服务已经具有可实现性。......
2023-11-23
1978年5月,上海推出了一台汉字信息处理实验样机。图7-1 汉字处理框图由于计算机只能直接处理和保存以二进制数字形式存在的信息,因此所有字符必须经过编码后才能被计算机处理。汉字区位码是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
相关推荐