首页 理论教育数字出版中的自然语言处理技术助力文献词汇抽取研究

数字出版中的自然语言处理技术助力文献词汇抽取研究

【摘要】:期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。

期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。随着数字出版产业的形成,目前国际主流科技期刊已全面实现编辑出版的数字化和网络化[12]。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。但对于阅读外文参考文献的读者来说,由于科技文献的语言特点,如客观、精确、文体正式和大量使用术语等,较一般的文学读物更不容易理解。同时由于期刊论文的写作特点和要求,即科技论文的描述不仅需要精确、逻辑性强,而且受文字数量的限制,更需要简洁,所以很多时候,期刊文献中的论文较外文原版教材的阅读更有难度。

一般来说,能选择阅读外文参考文献的读者,都具有一定的外语水平基础。但生词,特别是专业术语的影响使读者在阅读的开始阶段比较困难,查生词花费很多时间。而对外语水平和专业水平还处在学习发展期的在校学生来说,阅读外文参考文献似乎更有难度。

目前期刊文献电子阅读的过程中,能通过词典和翻译软件实现屏幕取词和例句,但还不能保证专业术语翻译的准确性,并且电子阅读本身缺点也对保证阅读质量有干扰[13];而纸质期刊阅读由于完全需要人工查词典,就更不方便。如果出版平台能把读者不认识的源语言单词提前抽取出来,并给出对于目标语言的翻译(英译汉时,英语是源语言,汉语是目标语言),生成能按字母和页码顺序进行删除、排序、筛选和保存的单词表,使读者在读一篇文献之前,能集中精力对生词和专业术语进行有意识强化记忆,不仅减少了查生词的时间,也符合认知规律,同时对促进外语学习也有益处。(www.chuimin.cn)

为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。