所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
为了解决语篇预处理和缺乏准确高效的难句识别和抽取算法问题,可以考虑在参考传统的确定文本难度算法的基础上,在纯文本格式文件中实现自动难句提取,这样就可以避开语篇预处理问题。文本难度(也称为易读性),是指文本易于阅读和理解的程度和性质。易读性依赖于多种因素,主要包括文章的句子平均长度、生词数和语法复杂度。国外英文易读性的研究始于20世纪20年代,研究者通过不懈的努力,开发出了上百个易读性公式[15]。通常易读性公式使用文本的词汇难度和句法难度来判定文本的难度,词汇难度以词频和词长来衡量,句子的难度以句子的长度来衡量。此外,近年来统计语言模型被引入易读性研究中[16],但是是在对语料库进行预处理的基础上进行的,这里无法采用。而传统的文本难度计算中的词汇难度、词频和词长计算都可以在纯文本格式文件中完成。由云平台提供参考传统的确定文本难度算法开发难句抽取软件工具比较容易,虽然不能达到完全的抽取率,但大部分难句可提取出来。
其次,在基于传统的文本难度算法的基础上进行难句提取时,应该注意成语和俗语问题。难句一般都比较长,但长句不一定是难句,对于含有成语和俗语的句子,有时虽然短却难以理解。因此,可从两个方面考虑:首先是句长和句子中的词频因素。句子越长、其中词汇难度越大(词长、词频低),则句子是难句的可能性越大;其次是句中是否包含成语和俗语因素。在文学类读物中,成语和俗语较多;在专业读物中,也可能用到成语和俗语,但用的非常少。随着自然语言处理技术和语料库技术的发展,成语或俗语电子词典的建立日趋完善,鉴于成语和俗语对二语习得的读者带来的不便,在对原著文学读物进行难句抽取时,可增加对成语和俗语因素的考虑。目前,对文本难度研究最成熟的是英语,而英语是国际通用语言,可尝试先在英文读物中提供英语难句的自动提取。
第三,从语言水平级别划分,难句抽取应注意以读物本身的文本难度出发来设计难句抽取算法,以满足不同语言水平的读者群。(www.chuimin.cn)
注:由于各类数字出版物中,难句抽取方式、方法的区别不是太大,所以本书第5章只介绍了各种语言文字类数字出版物中的词汇抽取问题,没有进一步讨论难句抽取问题。
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
美国最新研究显示,民众使用电子书阅读器,反而较不容易吸收所阅读的内容,因为这些信息以清晰易读的简洁格式呈现,反而鼓励大脑“偷懒”,较难记住信息内容[21]。在增强型电子书方面,美国由非营利性的琼甘兹库尼中心组织的调查结果显示,在阅读和学习方面,儿童更偏好电子书。......
2023-11-23
期刊文献中每篇文章的页数不是很多,但词汇分布却很广,从高频词到低频词,并且包含只在专业词典中出现的专业术语。阅读期刊文献时,术语翻译是翻译的关键和难点。......
2023-11-23
在目前网络环境普及、数字出版中的云阅读以及社会性阅读快速发展的情况下,可根据读物的特点,通过群体智能完成翻译工作。在云环境下,“云”所积极整合的计算资源不仅包含电子计算资源,还包含人力计算资源。所以,在云出版平台上给出专门的论坛区,供阅读同一本书的读者讨论协商,并与社会中从事翻译工作的自愿者协作给出正确翻译结果,这样既可以增加大家学习探索的积极性,也是对文化的学习和传播。......
2023-11-23
出版是人类社会的一种重要活动,是传播文化的渠道,而现代的信息技术、网络技术、多媒体技术等促生了数字出版这一文化与科技融合的产物出现。随着数字出版这一新生事物的出现和发展,人类的出版史进入了新的时代。手机出版手机出版作为数字出版的一员,是近几年兴起正蓬勃发展的一种出版形式。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
相关推荐