首页 理论教育使用自然语言处理技术,基于传统文本难度算法提取难句

使用自然语言处理技术,基于传统文本难度算法提取难句

【摘要】:为了解决语篇预处理和缺乏准确高效的难句识别和抽取算法问题,可以考虑在参考传统的确定文本难度算法的基础上,在纯文本格式文件中实现自动难句提取,这样就可以避开语篇预处理问题。而传统的文本难度计算中的词汇难度、词频和词长计算都可以在纯文本格式文件中完成。目前,对文本难度研究最成熟的是英语,而英语是国际通用语言,可尝试先在英文读物中提供英语难句的自动提取。

为了解决语篇预处理和缺乏准确高效的难句识别和抽取算法问题,可以考虑在参考传统的确定文本难度算法的基础上,在纯文本格式文件中实现自动难句提取,这样就可以避开语篇预处理问题。文本难度(也称为易读性),是指文本易于阅读和理解的程度和性质。易读性依赖于多种因素,主要包括文章的句子平均长度、生词数和语法复杂度。国外英文易读性的研究始于20世纪20年代,研究者通过不懈的努力,开发出了上百个易读性公式[15]。通常易读性公式使用文本的词汇难度和句法难度来判定文本的难度,词汇难度以词频和词长来衡量,句子的难度以句子的长度来衡量。此外,近年来统计语言模型被引入易读性研究中[16],但是是在对语料库进行预处理的基础上进行的,这里无法采用。而传统的文本难度计算中的词汇难度、词频和词长计算都可以在纯文本格式文件中完成。由云平台提供参考传统的确定文本难度算法开发难句抽取软件工具比较容易,虽然不能达到完全的抽取率,但大部分难句可提取出来。

其次,在基于传统的文本难度算法的基础上进行难句提取时,应该注意成语和俗语问题。难句一般都比较长,但长句不一定是难句,对于含有成语和俗语的句子,有时虽然短却难以理解。因此,可从两个方面考虑:首先是句长和句子中的词频因素。句子越长、其中词汇难度越大(词长、词频低),则句子是难句的可能性越大;其次是句中是否包含成语和俗语因素。在文学类读物中,成语和俗语较多;在专业读物中,也可能用到成语和俗语,但用的非常少。随着自然语言处理技术和语料库技术的发展,成语或俗语电子词典的建立日趋完善,鉴于成语和俗语对二语习得的读者带来的不便,在对原著文学读物进行难句抽取时,可增加对成语和俗语因素的考虑。目前,对文本难度研究最成熟的是英语,而英语是国际通用语言,可尝试先在英文读物中提供英语难句的自动提取。

第三,从语言水平级别划分,难句抽取应注意以读物本身的文本难度出发来设计难句抽取算法,以满足不同语言水平的读者群。(www.chuimin.cn)

注:由于各类数字出版物中,难句抽取方式、方法的区别不是太大,所以本书第5章只介绍了各种语言文字类数字出版物中的词汇抽取问题,没有进一步讨论难句抽取问题。