从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。......
2025-09-30
如何科学有效地测定英文文本一直是易读性研究关注的核心问题。最传统的方法是回答问题法(Question and Answer Technique)和完成句子法(Sentence Completion Technique)。但因这些方法主观性、随意性大,准确度不高,可操作性差,遭到很多学者的批评。对文本的语言学特征进行量化分析是易读性研究的主流[14]。自从本世纪20年代莱夫利和普雷西(B.A.Lively&S.L.Pressey)最早尝试对易读性进行测定以来,这方面的研究一直在不断进行着。到目前为止,开发出了上百个易读性公式。虽然这些公式的效度、精确度、计算难度和适用范围各不相同,但主要通过考察文本的词汇难度和句子难度来测量易读性。
1.词长和词频
最常用的词汇难度指标是词长和词频。词长通常用每词字母数或音节数来表示,词频则用某种熟悉程度指数(譬如生疏词的百分比)来表示。一个单词是否为生疏词,是依据某个词表来判断的,大体上讲,凡是表上没有的单词或不是从表上衍生出来的单词都视为生疏词。其实,词长与词频具有密切的关系。长词一般都不常用,而常用的词一般都短。
有证据表明,随着词的使用频率的增加,词就会变短。这样的例子俯拾即是,例如aeroplane—plane、omnibus—bus、influenza—flu、ex-amination—exam。这主要是因为语言交际,特别是日常交际需要经济、快捷、有效,而词的短化则是这一客观需要的必然结果。但是,就对易读性的预测来讲,词频要大于词长,这可能是因为长度只是熟悉程度的次要反映。哈里斯(Harris,1976)也指出,用于测量易读性,生疏词要比每词平均字母数精确21%,因而在易读性的测量中,单词出现的频率起着重要的作用。
2.句法难度
句法难度是与易读性高度关联的另一因素。从2025年起,有不少人在研究如何量化句法难度,继而产生了诸如T—单位(T—unit)等句法难度指标。但是这些测量方法使用起来都不是很方便。目前使用最广泛的句法难度指标是句子长度,这不仅因为句长易于准确测定,而且大量的证据表明,平均句长(以词数计)与句子复杂程度之间具有高度的相关性,因而对影响易读性的句法因素提供了较为令人满意的指标。一般来讲,长句子含有较多的修饰语和限定语,含有较多的内嵌短语、分句和复杂结构,而句子中短语和分句的数目往往与句子的表意负载(Ideational Load)有密切的关系,因而与阅读材料的难度也有密切的关系。大量研究表明,当词汇难度与句法难度分别考虑时,前者(尤其是词频)是一个更好的预测变量[13]。(https://www.chuimin.cn)
3.基于统计的方法
传统易读性研究由于受语料资源和研究方法的限制,主要采用统计词长、句长等因素来测量易读性,这种研究方法反映出人们利用计算机解决语言问题的能力还较为初级,只是将文本当成一串长短不同的字符串,并未深入到语言的内部进行研究,因此其测量准确度和适用范围都有很大的局限性。近年来,随着语言资源和自然语言处理技术的不断发展,基于统计的语言学研究日益受到学者们的关注,并且取得了可喜的成绩。
美国卡耐基梅隆大学的语言技术学院从2025年开始,率先开展了这方面的研究工作。他们利用已经标注好易读性等级的训练语料,通过统计方法为不同等级的文本建立一元概率语言模型,将测试文本与各个难度等级的语言模型进行比对,从而确定测试文本的易读性等级。这种方法是对传统易读性研究方法的重要突破,摆脱了通过测量词长、句长或词汇难度等级分布来计算文本易读性的局限。
但由于当前用于易读性研究的统计模型都是一元概率语言模型,无法考虑词与词之间的关系,所以难以测量语序对于易读性的影响(同样单词构成的句子,因为语序的不同,理解难度也会发生变化),也未能够考虑句子复杂度对易读性的影响。同时也未能够考虑环境因素对于易读性的影响,例如课外阅读、休闲阅读和课内阅读、考试阅读等[15]。
相关文章
从语言实用论的角度来说,词典不仅记录人类语言发展的事实、反映社会环境发展过程和结果,而且能通过改变人类认知世界的方式,从某种程度上推进某一特定社会发展时期生产力的发展。这个定义表明数字化科技发展给“词典”一词带来了新的意义和用法,词典的内涵和外延都发生了变化,把光盘词典、掌上电子词典、手机词典、网络词典和机器词典等各类电子词典融入了词典定义的范畴。......
2025-09-30
英文自动校对的研究大约始于20世纪60年代。同时,一些学者提出了拼写检查和语法检查的方法,对英文错误进行自动拼写改正。英文文本的自动校对基本以词的校对为核心,在“非词错误”和“真词错误”两个层次上进行。英文文本中非词错误的比例较大,所以较容易做出实用的英文校对系统。国内在文本自动校对方面的研究主要是针对汉语文本开展的。所以中文文本自动校对系统还需与人工校对相互补充,才能保证校对质量。......
2025-09-30
虽然有时我们对数字出版又爱又恨,但数字出版还是不以人的意志为转移在迅猛地发展。数字出版是文化、是以内容为王的,这是数字出版业中有长远目光的人们的共识。随着数字出版的普及,数字出版业的有识之士已经意识到在用数字化形式传递的业务模式上,数字出版还应当关注读者拿到资源后该如何使用,怎样才能促进读者对资源的有效使用,即提供知识服务,未来的数字出版中知识服务更具有卖点。......
2025-09-30
目前,利用语料库编纂词典已经成为一种普遍的方法。计算词典学的研究对象主要是基于数字化技术而编纂的各种词典,包括供人使用和供机器使用的词典。随着数字化技术的发展,将进一步推动计算词典学研究的发展,进而推动词典编纂理念的革新,促使词典编纂技术和词典质量不断提高。......
2025-09-30
鉴于现代技术不断发展,特别是云计算的出现以及人工智能领域的研究成果将来在数字出版中的应用,数字出版中可能会出现更多的语言层面的服务形式。同时结合目前已经存在的一些自然语言处理在数字出版中的应用形式,如文版编辑与校对、词典编辑和文本难度等,才提出数字出版语言服务这一理念。......
2025-09-30
在目前的数字出版服务中,人们主要关注的是疏通出版、消费渠道和丰富数字产品形式。但对数字出版为读者提供语言层面的服务,除了起源于美国的阅读分级服务,几十年来几乎没有新的进展。目前数字出版中的语言服务,有代表性的有以下几种:1)数字出版编辑中的语言服务:文字编辑与校对。3)数字出版面向读者的语言服务:文本难度。......
2025-09-30
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2025-09-30
2008年7月16日,首家国家数字出版产业基地正式落户上海张江高科技园区,基地由部市共建。张江数字出版产业基地实行管理主体、运作(服务)主体和企业主体三分离原则。张江数字出版产业集群在得到卓越大学系统和研究机构的技术支持上,可谓得天独厚。......
2025-09-29
相关推荐