首页 理论教育难句抽取服务-数字出版自然语言处理技术助力阅读

难句抽取服务-数字出版自然语言处理技术助力阅读

【摘要】:所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。

1.难句与外语学习

外文阅读中最主要的困难是词汇,而句式结构复杂、成分关系多样、具有高度逻辑性的长难句是另一障碍,能否解决长难句理解问题是提高阅读能力的另一个关键。虽然对语篇整体结构、深层含义、作者态度等语篇信息的理解是非常重要的,提高学生对于阅读材料宏观把握能力已成为语言学家及语言教师们研究的重要课题之一,但词汇和句子理解仍然是外语学习的基础,特别是在一门外语学习的早期,如初、高中至大学阶段,长难句理解都是学习者常见的困难[10,11]。如果提高长难句的理解能力,则外文阅读的速度和质量将会得到极大提高。如果在读者阅读一本外文原著时,提前把读者不容易理解的难句抽取出来,给出解释和分析,生成能按页码、章节和字母顺序自由排序和筛选的难句表放到出版平台上供下载,就能帮助读者更好理解这些难句。按页码、章节自由筛选,能迅速恢复其上下文语境,不仅对语言学习本身有利,同时有助于更好的理解原著。

此外,在各中类别的外语日常阅读训练中,如果能集中选择一些学习者对其内容熟悉且感兴趣的、具有代表性的长难句,如选择一些影响力较大的文学名著中的长难句进行分析,来强化翻译训练,掌握其规律就可以事半功倍。所以外文数字出版中提供难句抽取服务具有积极的意义。

虽然外文出版中的难句抽取服务对外语学习有很积极的意义,但目前技术条件下提供这种服务还存在着一些具体困难,其不像词汇抽取那样容易实现,需要通过某些特殊方法,采取合适策略来解决。

实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。(www.chuimin.cn)

2.难句抽取服务自动化的困难

首先,要在外文数字出版中把难句抽取出来,并通过机器翻译自动给出翻译结果,不仅涉及词长、词频和句长的计算,还需要对句子结构等进行多方面的识别和判定,因此需要对生语料(完成编辑后的书籍原稿文档)进行预处理,即进行词汇、句法、语义等的分析,添加相应的标注,把生语料变成熟语料。虽然语料库的自动标注技术已经研究多年,有一些效果较好的语料库自动标注工具软件,但该过程一般仍然需要人工干预校正。语料库标注是一项代价昂贵的工作[12],需要大量的人力、物力和资金,所以在目前技术条件下,对出版的外文读物生语料库进行标注是不现实的。

其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。但到目前为止,对语篇难度(文本难度)进行的研究很多,但多数都是基于文本难度的宏观度量,对微观的诸如语篇的基本组成部分,即句子难度度量研究的较少[13],缺乏精确高效的难句抽取算法[14]

第三,对于抽取出来的难句,需要用机器翻译方法给出翻译,而目前的机器翻译水平无法保证难句翻译的准确性。