期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。......
2023-11-23
期刊文献的种类很多,有的是某一学科的专业期刊,有的是跨学科的、含有多个专业内容的综合类期刊。专业性期刊中文章一般集中于一个特定专业,综合类期刊则可能包括不同专业的内容和跨越多专业的综述文章。期刊文献中每篇文章的页数不是很多,但词汇分布却很广,从高频词到低频词,并且包含只在专业词典中出现的专业术语。所以要尽量有效地抽出符合读者个人情况的生词,并给出正确的解释,抽取策略较内容单一的专业著作要复杂。
1.普通词汇的抽取(指期刊文献中的非专业词汇)
期刊文献中,每一篇文章的内容都是独立的,所以一般不能采用通过对一本期刊整体进行词频统计的方法抽取词汇表。较好的方法是通过以词频词典为参考的抽取策略,即以每篇文章为独立单位,把每篇文章的词汇按照词频抽取出属于各词频段的词汇,形成包括释义、页码、词频字段且可按页码、词频进行筛选的对应每篇文章的普通词汇表。读者在下载文章的同时,可把与文章对应的词汇表下载下来,然后根据自己的语言情况通过页码或词频筛选字段,查看相应词汇,并对词汇表进行编辑,如删除、保存等。
由于每篇文章整体词汇量较少,下载一篇文章对应各词频段的整体词汇表时间花费很少。仍以英语为例,美国当代英语词汇研究(Corpus of Contemporary American English)研究项目筛选出美语使用频率最高的20000个高频词汇和它的类词库[15],英语期刊文献普通词汇抽取可以该研究的词汇标准为参考,如以频率居前4000、5000、7000、10000、15000、20000等为词汇抽取标准,进行词频分段提取;对于语言水平较高的读者,可提取频率在15000至20000之间的单词,对少量不在表中的生词,可通过人工查字典;对于语言水平较低的读者,可从频率居前5000至6000的单词开始提取。如果词汇水平仅在2000至4000之间或左右,阅读参考文献困难会较大,但通过提供的词汇表,仍然可以提高阅读效率和改善语言学习。
2.普通词汇抽取流程图(见图5-3)及词汇表呈现(见表5-3)
图5-3 期刊文献普通词汇抽取流程图
表5-3 期刊文献普通词汇表呈现
(续)
注:由于期刊文献中每篇文献所含数量很少,即使放在一个词汇表中也可以,但为方便高语言水平读者的使用和增加外语水平较低者的学习自信心,分成了初、中、高三个表,实际也可分为中级和高级两个表。
3.专业性期刊中专业术语的抽取(www.chuimin.cn)
专业术语是某一学科领域所特有或专用的语汇。阅读期刊文献时,术语翻译是翻译的关键和难点。通过上述词频段抽取方法,能得到词汇的常规解释,还需要通过专业词典解决术语的抽取问题。对于专业性期刊来说,由于其只是涉及某一个专业,所以可以通过一个软件工具,在期刊编辑完成后自动进入对应的专业词典,抽取出每篇文献中的专业术语,形成一个专业词汇表,供读者下载。为便于读者学习,在通过专业词典抽取术语时,应该保留每个词汇的专业标记。
4.专业词汇抽取流程图(见图5-4)及词汇表呈现(见表5-4)
图5-4 期刊文献专业词汇抽取流程图
表5-4 期刊文献专业词汇表呈现
注:由于每篇文献中专业词汇数量不多,可不进行词频分段,放在一个专业词汇表中供下载。
5.综合类期刊中术语提取
一本综合类期刊,可能包含很多不同学科领域的内容,需要分别进入不同的专业词典进行专业术语的抽取,这就给自动抽取带来了困难。因为用抽取软件工具抽取专业词汇时,需要根据每篇文章的内容(常以关键词)确定专业领域,在复杂情况时,仅一篇文章就需要分别进入几个专业词典。而一本综合类期刊包含多篇文章,所以为了进入对应的专业词典进行词汇抽取,需要进行很多次选择。而软件工具难以完全实现自动地利用题目或关键词来决定进入相应的专业词典库。如果由出版社的编辑人员通过人机交互完成,在目前专业划分越来越细、交叉学科越来越多,新技术和术语不断出现的情况下,根据关键词准确选择分类专业词典也有困难。
鉴于读者本身能更准确地了解自己下载的文献的专业领域,可在出版平台提供一个计算机辅助的专业术语提取系统,读者选中或下载一篇期刊文献后,如果需要词汇表,可进入专业术语提取系统,自己选择需要使用的专业词典,完成专业词汇自动提取。目前云平台强大的运算能力,使基于庞大的分类专业词典的在线专业词汇抽取成为可能。
由于专业词典一般存在一词多域多义和一词多域同义的现象,即同一个词汇可能会出现在不同的专业词典中,在不同专业领域具有不同的意义,也可能具有相同的意义[12]。尽管一个专业词汇在文中特定位置只能具有一种专业意义,但对于涉及多个专业或学科的一篇文献进行专业词汇抽取时,由于使用了多个专业词典分别进行抽取,当同一个词汇存在于多个专业词典中,会被抽取多次,所以需要在每次抽取的词汇后添加专业标识,形成带不同专业标识的多个专业术语表,然后对这些术语表进行合并。
期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。......
2023-11-23
出版是人类社会的一种重要活动,是传播文化的渠道,而现代的信息技术、网络技术、多媒体技术等促生了数字出版这一文化与科技融合的产物出现。随着数字出版这一新生事物的出现和发展,人类的出版史进入了新的时代。手机出版手机出版作为数字出版的一员,是近几年兴起正蓬勃发展的一种出版形式。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
电影已深入到人类社会生活的方方面面,成为不可或缺的一员。这一切使电影对人们生活的影响进一步扩大。但在实践中发现很多时候通过看原版电影辅助外语学习时,效果并不理想,有时收效甚微。本节中分析了通过看原版电影辅助外语学习方法的优点,然后分析探讨了为原版电影视频提供语言服务改善观看原版电影学习外语效率的问题,并对数字出版中为电影和视频产品提供语言服务的可行性进行了分析,给出了供参考的语言服务策略。......
2023-11-23
科学技术正在以前所未有的速度在发展,“大数据”资源出现在每个行业中。技术的进步,由“大数据”分析产生的各种生产、管理和销售策略相互促进,为整个人类社会带来进一步变化。自然语言处理技术的发展将进一步改进文本编辑和校对技术效率,减少出版编辑人员的工作量。希望通过数字出版提供词汇和难句抽取服务,也能有助于世界上非主流语言的学习和保留。......
2023-11-23
目前,我国许多高校“看电影学外语”的教学模式为越来越多的教师所采纳和应用。在原版电影中学生能接触到大量形象生动、标准地道的生活语言,从而充分调动学生的语言学习积极性,有利于培养学生的语感和听说能力。自20世纪80年代至今,国内外众多学者,一直不断地对英文电影在教学中的应用展开研究,人们已经逐渐认识到原版电影在大学英语教学的诸多优势。......
2023-11-23
相关推荐