普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
词汇抽取服务是为了使读者在赏析优美的文学作品、阅读逻辑严谨的专业著作,或观看充满想象和幽默的外文动漫、视频之前,就有机会了解所要欣赏或学习的内容中涉及的生词,通过有意识的预习和记忆,减少阅读过程中障碍,更好地理解和享受阅读或观看过程。例如,对于一本很厚的外文原著,读者可根据随机选择的阅读章节,快速了解和记忆该章节中的生词,然后再去阅读。
词汇抽取既可以针对外语学习和阅读,也可以帮助处于母语学习过程中的学生或母语阅读中的具有很多生僻字的古籍阅读。词汇抽取是基于文本文档的,为了方便读者对词汇的预习、复习、记忆和查询,提取过程需要根据所对应的内容和题材形式的不同采用不同的抽取策略。这里说的抽取策略包括抽取方法、抽取内容及词汇表属性的设置,这是由数字出版物的内容、题材形式、媒体形式及文本形式所决定的。
1.形式属性分类
数字出版物中的各类书籍、期刊文献、数字报纸等从内容形式上,可分为文学类或专业类;从题材形式或文本长度方面,可分为长篇和短篇(如长篇小说和长篇专业著作,而各类期刊等是短篇);从文本的语言形式,又可分为书面语和口语等,如表4-1所示。
表4-1 数字出版词汇抽取涉及的出版物形式属性分类表
(www.chuimin.cn)
2.词汇抽取内容策略分类
对于不同内容和题材的数字出版物,词汇抽取的内容和词汇表所包含的属性内容是不同的,如文学作品只需抽取普通词汇,专业书籍中不仅有普通词汇还有专业词汇。书面文学作品类的词汇表显示属性中有页码和章节,多媒体类作品的词汇显示属性中则需要时间区间。各类题材和内容的数字出版物词汇抽取内容和显示属性如表4-2所示。
表4-2 词汇抽取内容策略分类表
注:这里说明了实现数字出版词汇抽取中的形式属性分类和词汇抽取内容策略分类,实际上在针对具体的题材和内容时,涉及更多细节问题,如对外文期刊文献提供词汇抽取服务有很强的实际意义,但对其中的综合类期刊进行抽取时,由于现代社会学科分类越来越细,有时机器无法完成专业词典的自动选择,所以可通过建立在线专业词汇抽取系统的方法解决。关于不同内容和题材的词汇抽取具体实现方法,请参阅本书第5、6章。
普通词汇的抽取是依据语言词汇使用分布的规律,即一本书包含很多词汇,但常用单词占了绝大部分。通过直接对作品中词汇进行频率统计的方法实现词汇抽取的优点是直接体现了原著内词汇的频率分布情况。......
2023-11-23
而数字出版、自然语言处理技术和云计算的出现,可以帮助我们实现这个愿望,即通过数字出版提供词汇和难句抽取服务。本节探讨了基于数字出版平台的外文文学原著出版中普及词汇抽取服务的问题,同时希望该探索能对促进各种现代技术在数字出版方面的应用产生积极影响。......
2023-11-23
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
俚语有很多特征,其中口语化是俚语的基本特征。此外,俚语的另一个典型特征是时间限制特征。时间限制指俚语是随着时代的变化而变化的,某一时代盛行的俚语会随着这一代的结束而消失。因此,现在盛行的俚语,在未来的岁月里则可能会受到质疑。有文章说,俚语占口语比重20%。把俚语提取出来形成俚语表,可方便有意识学习和记忆。每种语言的俚语各有其特点,有自身对应的俚语词典,可根据对应的俚语电子词典完成俚语的自动抽取。......
2023-11-23
薪酬水平设计对出版企业吸引并留住员工、控制劳动力成本都会产生关键性的影响。薪酬水平设计就是在这两者之间寻求平衡。市场跟随型薪酬水平策略。市场跟随型薪酬水平策略是指出版企业采取根据整个出版业或本地区出版业或主要竞争对手薪酬水平核定其员工薪酬水平的策略。比如对于关键出版人才和核心岗位采用市场领先型薪酬水平策略;对于普通的岗位、一般人才则采用其他的薪酬水平策略。......
2023-08-04
期刊文献是人们进行科学交流的重要工具,对于促进人类社会的发展具有重要意义。世界各国为科研和学术交流的需要,都购买了国际主流科技期刊一些数据库的使用权。为此,本节探讨了在数字期刊出版平台应用自然语言处理技术,为期刊文献提供词汇抽取服务,帮助读者更有效和容易地阅读外文参考文献的问题。......
2023-11-23
3)英语原版教材词汇抽取中,也可考虑通过词库类别进行词汇抽取。对于一个存在于多个专业词典中的词汇,会被抽取多次,所以需要注意减少数据冗余,方便读者学习。......
2023-11-23
相关推荐