1978年5月,上海推出了一台汉字信息处理实验样机。图7-1 汉字处理框图由于计算机只能直接处理和保存以二进制数字形式存在的信息,因此所有字符必须经过编码后才能被计算机处理。汉字区位码是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。......
2023-11-23
如何科学有效地测定英文文本一直是易读性研究关注的核心问题。最传统的方法是回答问题法(Question and Answer Technique)和完成句子法(Sentence Completion Technique)。但因这些方法主观性、随意性大,准确度不高,可操作性差,遭到很多学者的批评。对文本的语言学特征进行量化分析是易读性研究的主流[14]。自从本世纪20年代莱夫利和普雷西(B.A.Lively&S.L.Pressey)最早尝试对易读性进行测定以来,这方面的研究一直在不断进行着。到目前为止,开发出了上百个易读性公式。虽然这些公式的效度、精确度、计算难度和适用范围各不相同,但主要通过考察文本的词汇难度和句子难度来测量易读性。
1.词长和词频
最常用的词汇难度指标是词长和词频。词长通常用每词字母数或音节数来表示,词频则用某种熟悉程度指数(譬如生疏词的百分比)来表示。一个单词是否为生疏词,是依据某个词表来判断的,大体上讲,凡是表上没有的单词或不是从表上衍生出来的单词都视为生疏词。其实,词长与词频具有密切的关系。长词一般都不常用,而常用的词一般都短。
有证据表明,随着词的使用频率的增加,词就会变短。这样的例子俯拾即是,例如aeroplane—plane、omnibus—bus、influenza—flu、ex-amination—exam。这主要是因为语言交际,特别是日常交际需要经济、快捷、有效,而词的短化则是这一客观需要的必然结果。但是,就对易读性的预测来讲,词频要大于词长,这可能是因为长度只是熟悉程度的次要反映。哈里斯(Harris,1976)也指出,用于测量易读性,生疏词要比每词平均字母数精确21%,因而在易读性的测量中,单词出现的频率起着重要的作用。
2.句法难度
句法难度是与易读性高度关联的另一因素。从1960年起,有不少人在研究如何量化句法难度,继而产生了诸如T—单位(T—unit)等句法难度指标。但是这些测量方法使用起来都不是很方便。目前使用最广泛的句法难度指标是句子长度,这不仅因为句长易于准确测定,而且大量的证据表明,平均句长(以词数计)与句子复杂程度之间具有高度的相关性,因而对影响易读性的句法因素提供了较为令人满意的指标。一般来讲,长句子含有较多的修饰语和限定语,含有较多的内嵌短语、分句和复杂结构,而句子中短语和分句的数目往往与句子的表意负载(Ideational Load)有密切的关系,因而与阅读材料的难度也有密切的关系。大量研究表明,当词汇难度与句法难度分别考虑时,前者(尤其是词频)是一个更好的预测变量[13]。(www.chuimin.cn)
3.基于统计的方法
传统易读性研究由于受语料资源和研究方法的限制,主要采用统计词长、句长等因素来测量易读性,这种研究方法反映出人们利用计算机解决语言问题的能力还较为初级,只是将文本当成一串长短不同的字符串,并未深入到语言的内部进行研究,因此其测量准确度和适用范围都有很大的局限性。近年来,随着语言资源和自然语言处理技术的不断发展,基于统计的语言学研究日益受到学者们的关注,并且取得了可喜的成绩。
美国卡耐基梅隆大学的语言技术学院从2001年开始,率先开展了这方面的研究工作。他们利用已经标注好易读性等级的训练语料,通过统计方法为不同等级的文本建立一元概率语言模型,将测试文本与各个难度等级的语言模型进行比对,从而确定测试文本的易读性等级。这种方法是对传统易读性研究方法的重要突破,摆脱了通过测量词长、句长或词汇难度等级分布来计算文本易读性的局限。
但由于当前用于易读性研究的统计模型都是一元概率语言模型,无法考虑词与词之间的关系,所以难以测量语序对于易读性的影响(同样单词构成的句子,因为语序的不同,理解难度也会发生变化),也未能够考虑句子复杂度对易读性的影响。同时也未能够考虑环境因素对于易读性的影响,例如课外阅读、休闲阅读和课内阅读、考试阅读等[15]。
1978年5月,上海推出了一台汉字信息处理实验样机。图7-1 汉字处理框图由于计算机只能直接处理和保存以二进制数字形式存在的信息,因此所有字符必须经过编码后才能被计算机处理。汉字区位码是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。......
2023-11-23
由于影响易读性因素的研究是英文易读性测定的前提,影响易读性的因素决定着英文易读性测定必须要考虑的变量,也就决定着英文易读性测定的效度问题。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
目前,利用语料库编纂词典已经成为一种普遍的方法。计算词典学的研究对象主要是基于数字化技术而编纂的各种词典,包括供人使用和供机器使用的词典。随着数字化技术的发展,将进一步推动计算词典学研究的发展,进而推动词典编纂理念的革新,促使词典编纂技术和词典质量不断提高。......
2023-11-23
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。......
2023-11-23
相关推荐