首页 理论教育自然语言处理技术助力阅读、促进社会变化

自然语言处理技术助力阅读、促进社会变化

【摘要】:科学技术正在以前所未有的速度在发展,“大数据”资源出现在每个行业中。技术的进步,由“大数据”分析产生的各种生产、管理和销售策略相互促进,为整个人类社会带来进一步变化。自然语言处理技术的发展将进一步改进文本编辑和校对技术效率,减少出版编辑人员的工作量。希望通过数字出版提供词汇和难句抽取服务,也能有助于世界上非主流语言的学习和保留。

信息时代的到来,改变了人类的生活。科学技术正在以前所未有的速度在发展,“大数据”资源出现在每个行业中。技术的进步,由“大数据”分析产生的各种生产、管理和销售策略相互促进,为整个人类社会带来进一步变化。

数字出版是一种行业,同样也存在大数据的问题,如根据销售记录了解关乎读者爱好,按需出版等。但数据出版中还有另一种显性的大数据,即内容生产上的“大数据”,这包括出版了多少本书,发行了多少报纸,网络发布产生了多少微博、博客、聊天记录,有多少网络动漫、游戏和音频、视屏产生等等,而在这些内容数据中占主要地位的仍然是语言文字信息。

鉴于文字信息在人类社会中的重要性,目前已经形成了信息检索、信息分类抓取、文字识别、语音识别等各种新的研究领域,并已经取得了很多研究成果。但从读者和数字出版行业本身的角度出发,对构成海量文字信息的基础因素,即词汇和句子进行研究,以帮助改善人们阅读和语言学习方面问题的探索还很少。

本书把数字出版语言服务作为一种服务理念首次提出,词汇和难句提取服务也还没有在现实中实施,但随着时代和技术的发展,人类阅读和语言学习的需要,数字出版语言服务会日渐引起重视。

自然语言处理技术的发展将进一步改进文本编辑和校对技术效率,减少出版编辑人员的工作量。语料库建设和研究的深入会使词典编辑技术进一步完善,不仅是体现在词汇量、词频上,而且在编排形式和解释方式等方面都会出现新的变化。云计算的出现,强化了资源和服务平台,文本难度服务在数字出版中会更加普及,不仅是在美国,会在世界各国的数字出版中得到应用。屏幕取词和翻译软件会更加完善和人性化,易于操作和记忆生词。

更多的语料库会以免费共享或按需收费形式,在更广泛的范围内得到使用,不仅为人们的语言学习,提供词汇、句型和语法方面的服务,而且会提供更大范围和相关细节方面的服务。口语语料库、听力语料库、写作语料库或语料为外语或二语学习者的语言产出的学习者语料库等语料库的组织和使用方式也会发生变化,如通过写作语料库,读者可以快速了解多位著名作者对同一景致的不同描写方式等语言方面的细节内容,更多的语料库服务将在云出版平台上呈现。

多媒体出版物、MPR读物在人们语言学习中将会充分发挥良好的作用,通过眼、耳并用这种阅读加聆听方式,改善语言学习效果降低学习难度。而嗅觉等在将来都可能同时出现在人们的阅读活动中。

数字出版的词汇和难句抽取服务将广泛而方便地应用于各种出版物中,并发挥积极作用。如为处于语言学习发展过程中的读者提供文本难度服务的同时,附加词汇和难句抽取服务,不仅会降低阅读难度,而且将有效改善阅读和词汇学习效果;对各种外文名著提供词汇和难句抽取服务,将使更多的人有自信去品味和了解世界文化的芬芳;以英语为主的世界主流学术期刊出版平台提供多种目标语的词汇和难句抽取服务,会使相应国家的科技工作者以更高的效率阅读外文参考文献

一本优质易读的汉语小说在出版时,提供文本难度服务和基于词汇和难句抽取形成的对应于多种目标语言的词汇和难句表,而词汇表又有相关的字理解释和字画书写演示动画,为国外学习汉语的人们带来汉语学习的愉悦和汉字文化的享受;由于词汇和难句抽取服务,汉语古籍阅读和各个国家自身的古籍阅读对普通读者成为可以尝试的文化宴席。(www.chuimin.cn)

同样,在观看一部外文动画、电影,玩一个语言学习类游戏时,可以自由选择提前预习或之后复习其中的生词和经典句子,不必在观看过程中忙于记录,能更好地理解内容情节,模仿语音、语调,学习发音。

词汇和难句提取服务,在提供词汇和难句帮助的同时,可以避开网络和“屏”带来的心理层面的潜意识影响,实现深阅读和思考。

随着云计算的兴起和“软计算”的应用,将来的自然语言处理技术的研究深度和广度在人类生活中的作用将会大大增强,对各种自然语言成分,如句子、语篇的处理,将实现更高程度的自动化和准确性,这会促进数字出版中的语言服务的深度和广度。

现代技术的迅速发展,将会在数字出版中会得到应用和体现,数字出版作为传播人类文化的行业,必然在语言服务上开辟新的服务领域,在数字出版中的语言服务应用领域会扩大,不仅是词汇、句子,而且扩展到语音、语篇等更大的范围,同时会更加科学和智能。

云阅读和云图书馆的出现,将使知识资源进一步的细化,如提供工具书中的某一部分或某一条目,而不是整本工具书的服务成为可能,使人们能更方便、经济和准确地获取所需资源。目前人们对数字出版提供的服务还没有突破把数字出版的产品或者说产品内容,如电子书、视频或工具书的一部分等直接提供给消费者这个范围。但随着云计算的出现和人工智能技术的发展,对产品内容本身进行更深层次的服务将会出现。

在云平台的支撑下,数字出版和数字出版产品自身的数字化特点,自然语言处理技术在数字出版中的应用将使出版物在编辑阶段普遍实现对文本内容进行统计、分析等智能性工作成为可能。将来在书籍出版时,可以同时向读者提供关于该书的词汇难度及分类、语言特征、句子抽取等信息。

在各国的外语教学中,英语享有的地位远远超过法语、俄语、西班牙语、阿拉伯语和汉语等其他联合国官方语言,包括中国在内的一百多个国家将英语列为外语教学中的第一外语,还有更多的国家准备将英语列为外语教学中的第一外语。但伴随而来的是英语对人类其他语言的冲击,据预测,目前世界上约6000种语言,到2050年将有一半会灭亡或濒于灭亡,到2100年90%将会消失。因此,保持语言与文化的多样性,保持全世界各民族的文化传统成为人类面临的一个问题[1,2]。希望通过数字出版提供词汇和难句抽取服务,也能有助于世界上非主流语言的学习和保留。