首页 理论教育数字出版:内容及抽取策略

数字出版:内容及抽取策略

【摘要】:表4-1 数字出版词汇抽取涉及的出版物形式属性分类表2.词汇抽取内容策略分类对于不同内容和题材的数字出版物,词汇抽取的内容和词汇表所包含的属性内容是不同的,如文学作品只需抽取普通词汇,专业书籍中不仅有普通词汇还有专业词汇。

词汇抽取服务是为了使读者在赏析优美的文学作品、阅读逻辑严谨的专业著作,或观看充满想象和幽默的外文动漫、视频之前,就有机会了解所要欣赏或学习的内容中涉及的生词,通过有意识的预习和记忆,减少阅读过程中障碍,更好地理解和享受阅读或观看过程。例如,对于一本很厚的外文原著,读者可根据随机选择的阅读章节,快速了解和记忆该章节中的生词,然后再去阅读。

词汇抽取既可以针对外语学习和阅读,也可以帮助处于母语学习过程中的学生或母语阅读中的具有很多生僻字的古籍阅读。词汇抽取是基于文本文档的,为了方便读者对词汇的预习、复习、记忆和查询,提取过程需要根据所对应的内容和题材形式的不同采用不同的抽取策略。这里说的抽取策略包括抽取方法、抽取内容及词汇表属性的设置,这是由数字出版物的内容、题材形式、媒体形式及文本形式所决定的。

1.形式属性分类

数字出版物中的各类书籍、期刊文献、数字报纸等从内容形式上,可分为文学类或专业类;从题材形式或文本长度方面,可分为长篇和短篇(如长篇小说和长篇专业著作,而各类期刊等是短篇);从文本的语言形式,又可分为书面语和口语等,如表4-1所示。

表4-1 数字出版词汇抽取涉及的出版物形式属性分类表

978-7-111-47385-5-Chapter04-1.jpg(www.chuimin.cn)

2.词汇抽取内容策略分类

对于不同内容和题材的数字出版物,词汇抽取的内容和词汇表所包含的属性内容是不同的,如文学作品只需抽取普通词汇,专业书籍中不仅有普通词汇还有专业词汇。书面文学作品类的词汇表显示属性中有页码和章节,多媒体类作品的词汇显示属性中则需要时间区间。各类题材和内容的数字出版物词汇抽取内容和显示属性如表4-2所示。

表4-2 词汇抽取内容策略分类表

978-7-111-47385-5-Chapter04-2.jpg

注:这里说明了实现数字出版词汇抽取中的形式属性分类和词汇抽取内容策略分类,实际上在针对具体的题材和内容时,涉及更多细节问题,如对外文期刊文献提供词汇抽取服务有很强的实际意义,但对其中的综合类期刊进行抽取时,由于现代社会学科分类越来越细,有时机器无法完成专业词典的自动选择,所以可通过建立在线专业词汇抽取系统的方法解决。关于不同内容和题材的词汇抽取具体实现方法,请参阅本书第5、6章。