出版是人类社会的一种重要活动,是传播文化的渠道,而现代的信息技术、网络技术、多媒体技术等促生了数字出版这一文化与科技融合的产物出现。随着数字出版这一新生事物的出现和发展,人类的出版史进入了新的时代。手机出版手机出版作为数字出版的一员,是近几年兴起正蓬勃发展的一种出版形式。......
2023-11-23
信息时代的到来,改变了人类的生活。科学技术正在以前所未有的速度在发展,“大数据”资源出现在每个行业中。技术的进步,由“大数据”分析产生的各种生产、管理和销售策略相互促进,为整个人类社会带来进一步变化。
数字出版是一种行业,同样也存在大数据的问题,如根据销售记录了解关乎读者爱好,按需出版等。但数据出版中还有另一种显性的大数据,即内容生产上的“大数据”,这包括出版了多少本书,发行了多少报纸,网络发布产生了多少微博、博客、聊天记录,有多少网络动漫、游戏和音频、视屏产生等等,而在这些内容数据中占主要地位的仍然是语言文字信息。
鉴于文字信息在人类社会中的重要性,目前已经形成了信息检索、信息分类抓取、文字识别、语音识别等各种新的研究领域,并已经取得了很多研究成果。但从读者和数字出版行业本身的角度出发,对构成海量文字信息的基础因素,即词汇和句子进行研究,以帮助改善人们阅读和语言学习方面问题的探索还很少。
本书把数字出版语言服务作为一种服务理念首次提出,词汇和难句提取服务也还没有在现实中实施,但随着时代和技术的发展,人类阅读和语言学习的需要,数字出版语言服务会日渐引起重视。
自然语言处理技术的发展将进一步改进文本编辑和校对技术效率,减少出版编辑人员的工作量。语料库建设和研究的深入会使词典编辑技术进一步完善,不仅是体现在词汇量、词频上,而且在编排形式和解释方式等方面都会出现新的变化。云计算的出现,强化了资源和服务平台,文本难度服务在数字出版中会更加普及,不仅是在美国,会在世界各国的数字出版中得到应用。屏幕取词和翻译软件会更加完善和人性化,易于操作和记忆生词。
更多的语料库会以免费共享或按需收费形式,在更广泛的范围内得到使用,不仅为人们的语言学习,提供词汇、句型和语法方面的服务,而且会提供更大范围和相关细节方面的服务。口语语料库、听力语料库、写作语料库或语料为外语或二语学习者的语言产出的学习者语料库等语料库的组织和使用方式也会发生变化,如通过写作语料库,读者可以快速了解多位著名作者对同一景致的不同描写方式等语言方面的细节内容,更多的语料库服务将在云出版平台上呈现。
多媒体出版物、MPR读物在人们语言学习中将会充分发挥良好的作用,通过眼、耳并用这种阅读加聆听方式,改善语言学习效果降低学习难度。而嗅觉等在将来都可能同时出现在人们的阅读活动中。
数字出版的词汇和难句抽取服务将广泛而方便地应用于各种出版物中,并发挥积极作用。如为处于语言学习发展过程中的读者提供文本难度服务的同时,附加词汇和难句抽取服务,不仅会降低阅读难度,而且将有效改善阅读和词汇学习效果;对各种外文名著提供词汇和难句抽取服务,将使更多的人有自信去品味和了解世界文化的芬芳;以英语为主的世界主流学术期刊出版平台提供多种目标语的词汇和难句抽取服务,会使相应国家的科技工作者以更高的效率阅读外文参考文献。
一本优质易读的汉语小说在出版时,提供文本难度服务和基于词汇和难句抽取形成的对应于多种目标语言的词汇和难句表,而词汇表又有相关的字理解释和字画书写演示动画,为国外学习汉语的人们带来汉语学习的愉悦和汉字文化的享受;由于词汇和难句抽取服务,汉语古籍阅读和各个国家自身的古籍阅读对普通读者成为可以尝试的文化宴席。(www.chuimin.cn)
同样,在观看一部外文动画、电影,玩一个语言学习类游戏时,可以自由选择提前预习或之后复习其中的生词和经典句子,不必在观看过程中忙于记录,能更好地理解内容情节,模仿语音、语调,学习发音。
词汇和难句提取服务,在提供词汇和难句帮助的同时,可以避开网络和“屏”带来的心理层面的潜意识影响,实现深阅读和思考。
随着云计算的兴起和“软计算”的应用,将来的自然语言处理技术的研究深度和广度在人类生活中的作用将会大大增强,对各种自然语言成分,如句子、语篇的处理,将实现更高程度的自动化和准确性,这会促进数字出版中的语言服务的深度和广度。
现代技术的迅速发展,将会在数字出版中会得到应用和体现,数字出版作为传播人类文化的行业,必然在语言服务上开辟新的服务领域,在数字出版中的语言服务应用领域会扩大,不仅是词汇、句子,而且扩展到语音、语篇等更大的范围,同时会更加科学和智能。
云阅读和云图书馆的出现,将使知识资源进一步的细化,如提供工具书中的某一部分或某一条目,而不是整本工具书的服务成为可能,使人们能更方便、经济和准确地获取所需资源。目前人们对数字出版提供的服务还没有突破把数字出版的产品或者说产品内容,如电子书、视频或工具书的一部分等直接提供给消费者这个范围。但随着云计算的出现和人工智能技术的发展,对产品内容本身进行更深层次的服务将会出现。
在云平台的支撑下,数字出版和数字出版产品自身的数字化特点,自然语言处理技术在数字出版中的应用将使出版物在编辑阶段普遍实现对文本内容进行统计、分析等智能性工作成为可能。将来在书籍出版时,可以同时向读者提供关于该书的词汇难度及分类、语言特征、句子抽取等信息。
在各国的外语教学中,英语享有的地位远远超过法语、俄语、西班牙语、阿拉伯语和汉语等其他联合国官方语言,包括中国在内的一百多个国家将英语列为外语教学中的第一外语,还有更多的国家准备将英语列为外语教学中的第一外语。但伴随而来的是英语对人类其他语言的冲击,据预测,目前世界上约6000种语言,到2050年将有一半会灭亡或濒于灭亡,到2100年90%将会消失。因此,保持语言与文化的多样性,保持全世界各民族的文化传统成为人类面临的一个问题[1,2]。希望通过数字出版提供词汇和难句抽取服务,也能有助于世界上非主流语言的学习和保留。
出版是人类社会的一种重要活动,是传播文化的渠道,而现代的信息技术、网络技术、多媒体技术等促生了数字出版这一文化与科技融合的产物出现。随着数字出版这一新生事物的出现和发展,人类的出版史进入了新的时代。手机出版手机出版作为数字出版的一员,是近几年兴起正蓬勃发展的一种出版形式。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
在目前的数字出版服务中,人们主要关注的是疏通出版、消费渠道和丰富数字产品形式。但对数字出版为读者提供语言层面的服务,除了起源于美国的阅读分级服务,几十年来几乎没有新的进展。目前数字出版中的语言服务,有代表性的有以下几种:1)数字出版编辑中的语言服务:文字编辑与校对。3)数字出版面向读者的语言服务:文本难度。......
2023-11-23
外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。......
2023-11-23
数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。......
2023-11-23
相关推荐