首页 理论教育提升数字出版中英文易读性的技术

提升数字出版中英文易读性的技术

【摘要】:如何科学有效地测定英文文本一直是易读性研究关注的核心问题。自从本世纪20年代莱夫利和普雷西最早尝试对易读性进行测定以来,这方面的研究一直在不断进行着。他们利用已经标注好易读性等级的训练语料,通过统计方法为不同等级的文本建立一元概率语言模型,将测试文本与各个难度等级的语言模型进行比对,从而确定测试文本的易读性等级。

如何科学有效地测定英文文本一直是易读性研究关注的核心问题。最传统的方法是回答问题法(Question and Answer Technique)和完成句子法(Sentence Completion Technique)。但因这些方法主观性、随意性大,准确度不高,可操作性差,遭到很多学者的批评。对文本的语言学特征进行量化分析是易读性研究的主流[14]。自从本世纪20年代莱夫利和普雷西(B.A.Lively&S.L.Pressey)最早尝试对易读性进行测定以来,这方面的研究一直在不断进行着。到目前为止,开发出了上百个易读性公式。虽然这些公式的效度、精确度、计算难度和适用范围各不相同,但主要通过考察文本的词汇难度和句子难度来测量易读性。

1.词长和词频

最常用的词汇难度指标是词长和词频。词长通常用每词字母数或音节数来表示,词频则用某种熟悉程度指数(譬如生疏词的百分比)来表示。一个单词是否为生疏词,是依据某个词表来判断的,大体上讲,凡是表上没有的单词或不是从表上衍生出来的单词都视为生疏词。其实,词长与词频具有密切的关系。长词一般都不常用,而常用的词一般都短。

有证据表明,随着词的使用频率的增加,词就会变短。这样的例子俯拾即是,例如aeroplane—plane、omnibus—bus、influenza—flu、ex-amination—exam。这主要是因为语言交际,特别是日常交际需要经济、快捷、有效,而词的短化则是这一客观需要的必然结果。但是,就对易读性的预测来讲,词频要大于词长,这可能是因为长度只是熟悉程度的次要反映。哈里斯(Harris,1976)也指出,用于测量易读性,生疏词要比每词平均字母数精确21%,因而在易读性的测量中,单词出现的频率起着重要的作用。

2.句法难度

句法难度是与易读性高度关联的另一因素。从1960年起,有不少人在研究如何量化句法难度,继而产生了诸如T—单位(T—unit)等句法难度指标。但是这些测量方法使用起来都不是很方便。目前使用最广泛的句法难度指标是句子长度,这不仅因为句长易于准确测定,而且大量的证据表明,平均句长(以词数计)与句子复杂程度之间具有高度的相关性,因而对影响易读性的句法因素提供了较为令人满意的指标。一般来讲,长句子含有较多的修饰语和限定语,含有较多的内嵌短语、分句和复杂结构,而句子中短语和分句的数目往往与句子的表意负载(Ideational Load)有密切的关系,因而与阅读材料的难度也有密切的关系。大量研究表明,当词汇难度与句法难度分别考虑时,前者(尤其是词频)是一个更好的预测变量[13]。(www.chuimin.cn)

3.基于统计的方法

传统易读性研究由于受语料资源和研究方法的限制,主要采用统计词长、句长等因素来测量易读性,这种研究方法反映出人们利用计算机解决语言问题的能力还较为初级,只是将文本当成一串长短不同的字符串,并未深入到语言的内部进行研究,因此其测量准确度和适用范围都有很大的局限性。近年来,随着语言资源和自然语言处理技术的不断发展,基于统计的语言学研究日益受到学者们的关注,并且取得了可喜的成绩。

美国卡耐基梅隆大学的语言技术学院从2001年开始,率先开展了这方面的研究工作。他们利用已经标注好易读性等级的训练语料,通过统计方法为不同等级的文本建立一元概率语言模型,将测试文本与各个难度等级的语言模型进行比对,从而确定测试文本的易读性等级。这种方法是对传统易读性研究方法的重要突破,摆脱了通过测量词长、句长或词汇难度等级分布来计算文本易读性的局限。

但由于当前用于易读性研究的统计模型都是一元概率语言模型,无法考虑词与词之间的关系,所以难以测量语序对于易读性的影响(同样单词构成的句子,因为语序的不同,理解难度也会发生变化),也未能够考虑句子复杂度对易读性的影响。同时也未能够考虑环境因素对于易读性的影响,例如课外阅读、休闲阅读和课内阅读、考试阅读等[15]