2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
自然语言处理(Natural Language Processing,简称NLP)是用计算机来研究和处理自然语言的技术,是人工智能(Artificial Intelligence)领域研究的主要内容。从20世纪40年代末50年代初发展至今,自然语言处理技术已经取得了相当大的进展,目前已成为当代计算机科学中一门重要的新型学科。随着人类信息量的爆炸增长,对信息处理的自动化和智能化要求越来越急迫,一种与传统的数学计算那样精确计算不同的“软件算”将会出现,那就是以自然语言处理技术为基础的词计算、语义计算、语音计算及语构、语义和语境理解,自然语言处理技术在人类社会中将发挥着越来越重要的作用,而且自然语言处理技术为实现数字出版提供语言服务提供了语言处理工具上的可能性。
人类的语言有口语和书面语之分,但从语言组成层次的角度均可分为词汇、句子、篇章等,在自然语言处理研究过程中,对上述三个方面的研究方法、研究的复杂性等方面区别很大,难度和复杂性不断升级。
首先,词是语言的最基本的建筑材料,人类的所有语言,无论是口头语言、记号语言还是书面语言,都是由词构成的。在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。由于词在语言中的基础层次属性,决定了词汇的处理是自然语言处理的基础。例如,目前自然语言处理研究的热点中,从语音识别、机器翻译到Web上的信息检索,从人类语言处理的心理语言学模型和生成语言学模型都是建立在词汇知识的基础上的。虽然,对于一些表意文字语言,词汇层次的处理有着相当的难度,例如对于汉语这样的表意文字语言,由于书写时词与词之间无空格,计算机自动分词的准确率还不能令人满意(大约90%)[1],从而导致后续的句子和篇章的处理精度受到影响,已经成为中文信息处理发展的瓶颈。不过总的说来,目前词汇处理在自然语言处理中属于成熟的技术,即使对于中文信息处理,在过去几十年研究中也已经取得了丰富的成果,建设了很多宝贵的语言处理资源,如词频和各种电子词典、语料库和汉语语言处理工具等。所以,目前数字出版提供词汇层次的语言服务是可行的。
其次,是对句子的处理,即句法分析。句法分析(Parsing)就是指对句子中的词语语法功能进行分析。如果说单词是语言处理的基础,那么句法就是它的骨架。对句子的研究涉及单词之间的形式关系,单词怎样类聚为词类(part-of-speech)的类别,怎样与相邻的单词组合成短语,以及一个句子的单词与单词之间彼此依赖的方式。如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。因此句法分析中首先涉及的是词的分类问题,如“名词”、“动词”、“介词”等,以便提供关于单词及其邻近成分的大量有用信息。为了理解一个句子的意思,需要对文本中的句子进行词类标注,这是一个精细和庞大的工作,尽管现在有一些自动标注软件,但很多时候还需要人工干预。
第三,自然语言处理过程中,完成了词汇处理句法分析后,并不能完全解决一个完整文本的语义问题。例如,通过阅读说明书来学习一种新软件,或者对具体做法提出建议,不仅要了解说明书中的文字意义,还要求对当前的计算机,对有关的软件及其使用情况都有深入的知识,且对用户也要有一定的知识。因此,计算机为了准确理解一篇文本丰富和准确的意义,需要引入广泛的知识源和推理技术。这些知识源包括:词本身的意义、语法结构所带的意义、话语的结构知识、发生话语的上下文知识以及与话题相关的常识等。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。(www.chuimin.cn)
数字出版过程中处理的所有文档都是普通文本,如果要提供句子和整体语篇层面的服务,就需要进行词汇、句法分析的词性标注及后续的语义分析,所以在目前条件下提供关于句子和整体语篇方面的服务,因涉及的信息处理量太大,无论从技术还是人力经济方面还难以实现,但可通过某些特殊策略,通过“简化算法”和人力计算的辅助,实现在数字出版中提供句子层次的某些服务。
人们进行语言学习和阅读时,遇到的主要困难是词汇和难句问题。例如,读一本有趣的英文小说,一般来说,是由于生词和少量句子影响阅读的质量。如果停下来查字典会影响阅读的连续性和趣味性;如果在阅读内容之前,就能对少量的生词和难句进行预习,减少生词数量,或阅读中能快速查询到生词解释,则会对阅读产生有益的帮助,同时还可以提高外语水平。所以,数字出版中可首先提供词汇和句子方面的语言服务。
在数字出版中应用自然语言处理这个工具,离不开词典的支持。世界各国的自然语言处理技术发展水平不同,但由于词汇抽取和各种词典建设是自然语言处理技术的基础,属于成熟的技术,因此在已经建成的词典资源的基础上,再新建一些词典,构成词汇和难句抽取服务所需要的词典资源是可能的。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。对于汉语,虽然目前在大规模范围内需要详细分类词典的情况下,实现词汇抽取服务有困难,但基于汉语在自然语言处理技术方面几十年的研究成果和建设的各种资源,在一定范围内实施是可以的。对于句子,可通过参考传统的文本难度算法避开词性标注、通过人力计算策略避开机器翻译不能保证准确性的问题,提前把所读内容中的难句提取出来,并给出翻译。
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
在目前的数字出版服务中,人们主要关注的是疏通出版、消费渠道和丰富数字产品形式。但对数字出版为读者提供语言层面的服务,除了起源于美国的阅读分级服务,几十年来几乎没有新的进展。目前数字出版中的语言服务,有代表性的有以下几种:1)数字出版编辑中的语言服务:文字编辑与校对。3)数字出版面向读者的语言服务:文本难度。......
2023-11-23
外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。......
2023-11-23
数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。......
2023-11-23
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
目前,我国许多高校“看电影学外语”的教学模式为越来越多的教师所采纳和应用。在原版电影中学生能接触到大量形象生动、标准地道的生活语言,从而充分调动学生的语言学习积极性,有利于培养学生的语感和听说能力。自20世纪80年代至今,国内外众多学者,一直不断地对英文电影在教学中的应用展开研究,人们已经逐渐认识到原版电影在大学英语教学的诸多优势。......
2023-11-23
相关推荐