首页 理论教育自然语言处理技术助力期刊文献词汇提取

自然语言处理技术助力期刊文献词汇提取

【摘要】:期刊文献中每篇文章的页数不是很多,但词汇分布却很广,从高频词到低频词,并且包含只在专业词典中出现的专业术语。阅读期刊文献时,术语翻译是翻译的关键和难点。

期刊文献的种类很多,有的是某一学科的专业期刊,有的是跨学科的、含有多个专业内容的综合类期刊。专业性期刊中文章一般集中于一个特定专业,综合类期刊则可能包括不同专业的内容和跨越多专业的综述文章。期刊文献中每篇文章的页数不是很多,但词汇分布却很广,从高频词到低频词,并且包含只在专业词典中出现的专业术语。所以要尽量有效地抽出符合读者个人情况的生词,并给出正确的解释,抽取策略较内容单一的专业著作要复杂。

1.普通词汇的抽取(指期刊文献中的非专业词汇)

期刊文献中,每一篇文章的内容都是独立的,所以一般不能采用通过对一本期刊整体进行词频统计的方法抽取词汇表。较好的方法是通过以词频词典为参考的抽取策略,即以每篇文章为独立单位,把每篇文章的词汇按照词频抽取出属于各词频段的词汇,形成包括释义、页码、词频字段且可按页码、词频进行筛选的对应每篇文章的普通词汇表。读者在下载文章的同时,可把与文章对应的词汇表下载下来,然后根据自己的语言情况通过页码或词频筛选字段,查看相应词汇,并对词汇表进行编辑,如删除、保存等。

由于每篇文章整体词汇量较少,下载一篇文章对应各词频段的整体词汇表时间花费很少。仍以英语为例,美国当代英语词汇研究(Corpus of Contemporary American English)研究项目筛选出美语使用频率最高的20000个高频词汇和它的类词库[15],英语期刊文献普通词汇抽取可以该研究的词汇标准为参考,如以频率居前4000、5000、7000、10000、15000、20000等为词汇抽取标准,进行词频分段提取;对于语言水平较高的读者,可提取频率在15000至20000之间的单词,对少量不在表中的生词,可通过人工查字典;对于语言水平较低的读者,可从频率居前5000至6000的单词开始提取。如果词汇水平仅在2000至4000之间或左右,阅读参考文献困难会较大,但通过提供的词汇表,仍然可以提高阅读效率和改善语言学习。

2.普通词汇抽取流程图(见图5-3)及词汇表呈现(见表5-3)

978-7-111-47385-5-Chapter05-6.jpg

图5-3 期刊文献普通词汇抽取流程图

表5-3 期刊文献普通词汇表呈现

978-7-111-47385-5-Chapter05-7.jpg

(续)

978-7-111-47385-5-Chapter05-8.jpg

注:由于期刊文献中每篇文献所含数量很少,即使放在一个词汇表中也可以,但为方便高语言水平读者的使用和增加外语水平较低者的学习自信心,分成了初、中、高三个表,实际也可分为中级和高级两个表。

3.专业性期刊中专业术语的抽取(www.chuimin.cn)

专业术语是某一学科领域所特有或专用的语汇。阅读期刊文献时,术语翻译是翻译的关键和难点。通过上述词频段抽取方法,能得到词汇的常规解释,还需要通过专业词典解决术语的抽取问题。对于专业性期刊来说,由于其只是涉及某一个专业,所以可以通过一个软件工具,在期刊编辑完成后自动进入对应的专业词典,抽取出每篇文献中的专业术语,形成一个专业词汇表,供读者下载。为便于读者学习,在通过专业词典抽取术语时,应该保留每个词汇的专业标记。

4.专业词汇抽取流程图(见图5-4)及词汇表呈现(见表5-4)

978-7-111-47385-5-Chapter05-9.jpg

图5-4 期刊文献专业词汇抽取流程图

表5-4 期刊文献专业词汇表呈现

978-7-111-47385-5-Chapter05-10.jpg

注:由于每篇文献中专业词汇数量不多,可不进行词频分段,放在一个专业词汇表中供下载。

5.综合类期刊中术语提取

一本综合类期刊,可能包含很多不同学科领域的内容,需要分别进入不同的专业词典进行专业术语的抽取,这就给自动抽取带来了困难。因为用抽取软件工具抽取专业词汇时,需要根据每篇文章的内容(常以关键词)确定专业领域,在复杂情况时,仅一篇文章就需要分别进入几个专业词典。而一本综合类期刊包含多篇文章,所以为了进入对应的专业词典进行词汇抽取,需要进行很多次选择。而软件工具难以完全实现自动地利用题目或关键词来决定进入相应的专业词典库。如果由出版社的编辑人员通过人机交互完成,在目前专业划分越来越细、交叉学科越来越多,新技术和术语不断出现的情况下,根据关键词准确选择分类专业词典也有困难。

鉴于读者本身能更准确地了解自己下载的文献的专业领域,可在出版平台提供一个计算机辅助的专业术语提取系统,读者选中或下载一篇期刊文献后,如果需要词汇表,可进入专业术语提取系统,自己选择需要使用的专业词典,完成专业词汇自动提取。目前云平台强大的运算能力,使基于庞大的分类专业词典的在线专业词汇抽取成为可能。

由于专业词典一般存在一词多域多义和一词多域同义的现象,即同一个词汇可能会出现在不同的专业词典中,在不同专业领域具有不同的意义,也可能具有相同的意义[12]。尽管一个专业词汇在文中特定位置只能具有一种专业意义,但对于涉及多个专业或学科的一篇文献进行专业词汇抽取时,由于使用了多个专业词典分别进行抽取,当同一个词汇存在于多个专业词典中,会被抽取多次,所以需要在每次抽取的词汇后添加专业标识,形成带不同专业标识的多个专业术语表,然后对这些术语表进行合并。