2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
1.自然语言处理要解决的问题
利用计算机技术来研究和处理自然语言是20世纪40年代末期和50年代才开始的。所谓“自然语言”,是指人们日常交流使用的语言,如英语、汉语、法语、德语、俄语等。自然语言是人类社会中自然形成的语言,人们借助它进行各种交际活动,随着一代人传给另一代人而不断演化,因而很难用明确的规则来刻画,可以说自然语言是生长而成的。
与自然语言相对而言的则是人工语言,人工语言是为了某个特定的目的,通过人工设计创造出来的语言,如世界语(la Esperanto)和计算机程序设计语言(BASIC、COBOL、FORTRAN、LISP、PROLOG等)。广而言之,数学语言、物理学语言、各种各样的电脑语言都可以被视作人工语言。一般说来,人工语言既然是为了某一特定目的进行设计的,它原则上就是另一种语言,既不是要用它来代替自然语言,也不是自然语言的深层结构[1]。
经过50多年的努力,利用计算机来研究和处理自然语言已取得了长足的进展,形成了当代语言学中一门重要的新兴学科——自然语言处理。自然语言处理利用计算机对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工,也称为自然语言理解(Natural Language Understanding)或计算语言学(Computational Lin-guistics,CL)。其所做的工作就是利用计算机等工具对人类所特有的语言信息输入(包括口语信息和文字信息)进行各种加工,然后再以自然语言的形式输出,建立各种类型的人-机-人系统,如图3-1所示:
图3-1 人和计算机之间的通信
自然语言处理作为人工智能领域的主要内容,它要解决下面两方面的语言障碍问题:
1)人与人之间的语言障碍——自动完成不同语言的翻译;
2)人与机之间的语言障碍——人-机接口。
计算机问世后,人们想用计算机把一种语言翻译成另一种语言。在计算机发明不久的20世纪40年代末期,人们就开始这方面的尝试。起初人们认为翻译包括两个基本过程,即查词典和语法分析,但是使用这种方法并没有达到预期效果。这是因为人们在理解某种语言的时候,不仅要依赖于他的语法知识,而且还要运用他所涉及世界的有关知识。同时,人们注意到,如果人们能用自己的语言同计算机打交道,而不必为使用计算机去学习程序设计语言,这对计算机的广泛应用无疑具有深远意义。所以,解决人-机之间的语言障碍,即实现自然语言级的人-机接口也一直是人们研究的目标。
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。语言是人类思维不可分割的一部分,人类的记忆、推理、意识都是与语言是如何工作的这个问题密切相连。人工智能工作者在自然语言理解的研究过程中,注意力集中在语言的功能上,即把语言看作是一个智能生物与另一个智能生物的通信过程。
由于各种语言以及文字的特点不同,再加上科技发展的不平衡,目前各国的自然语言处理水平很不一样。像英语那样的拼音文字的处理没有我们所谓的“字处理”和“词处理”阶段,因为它们的字母不多(只有二三十个),输入输出很方便;它们的词也早已定型,词前后有空白分隔,用不着劳而无功的预处理(分词)。这样,使用拼音文字的语言在信息处理方面有许多优越条件,再加上起步早,因而成果比较多。
随着计算机和互联网技术的发展和普及,计算机可处理的自然语言文本数量空前增长,自然语言处理研究范围和应用领域在不断地扩展。
2.自然语言处理的实现过程
人类社会的现实事物用计算机处理的前提是,必须把这些事物抽象成计算机能理解的模型。为了使现实的自然语言成为可以由计算机直接处理的对象,一般来说,使用计算机对自然语言的研究和处理,需经过以下4个过程:(www.chuimin.cn)
1)把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示出来;
2)把这种严密而规整的数学形式表示为算法,使之在计算上形式化;
3)根据算法编写计算机程序,使之在计算机上加以实现;
4)对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求。
在自然语言处理具体的实施过程中,要利用计算机通过可计算的方法对自然语言的各级语言单位(字、词、语句、篇章等)进行转换、传输、存储、分析等加工处理。从广义上讲,“自然语言处理”包含所有用计算机对自然语言进行的操作,从最简单的通过计数词出现的频率来比较不同的写作风格,到最复杂的完全“理解”人所说的话,至少要能达到对人的话语做出有效反应的程度。
由于现实的自然语言极为复杂,对自然语言建模的过程,不仅需要数学、而且需要所有和我们人类语言相关的知识,因此自然语言处理涉及的常是海量知识。
首先,用计算机处理自然语言,研制表示语言能力的模型,直接相关的是语言学的知识。大多数的自然语言处理研究人员都认为,这些语言学知识至少可以分为词汇学知识、句法学知识、语义学知识和语用学知识等。其次,由于人类语言本身涉及的领域很广,人们的世界观和方法论等都会在语言中有所反应,所以建模过程中也需要心理学、生物学等领域的知识。因此,自然语言处理是一个多边缘的交叉学科,除了语言学之外,它还涉及如下的知识领域来实现其工作[2]:
1)计算机科学:给自然语言处理提供模型表示、算法设计和计算机实现的技术。
2)数学:给自然语言处理提供形式化的数学模型和形式化的数学方法。
3)心理学:给自然语言处理提供人类言语行为的心理模型和理论。
4)哲学:给自然语言处理提供关于人类的思维和语言的更深层次的理论。
5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。
6)电子工程:给自然语言处理提供信息论的理论基础和语言信号处理技术。
7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。
2014年,新技术在我国数字出版中的应用将得到进一步发展。因此,数字出版的潮流势不可挡。韩国的数字出版产业政策对其数字出版产业发展起了极大的促进作用,其扶持政策值得我国借鉴。为了加强数字出版产业振兴政策的实施效果,韩国政府进一步明确了数字出版相关法律,培养专业性的数字出版人才顺应发展数字出版产业的趋势。......
2023-11-23
在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。......
2023-11-23
在目前的数字出版服务中,人们主要关注的是疏通出版、消费渠道和丰富数字产品形式。但对数字出版为读者提供语言层面的服务,除了起源于美国的阅读分级服务,几十年来几乎没有新的进展。目前数字出版中的语言服务,有代表性的有以下几种:1)数字出版编辑中的语言服务:文字编辑与校对。3)数字出版面向读者的语言服务:文本难度。......
2023-11-23
外文原版教材具有篇幅长、语言正式、句式复杂、专业性强等特点。尽管一些优秀的外文原版教材一般语言简洁流畅,但由于专业知识的讲解涉及概念、相关理念、规律等,强调语言的缜密性、准确性,经常会使用长句和大量术语,较一般的文学读物等更不容易理解。我国目前的外文原版教材主要是纸制书形式,但将来以电子书形式的教材会增加。因此,对于原版教材阅读来说,无论是电子阅读还是纸质阅读,词汇问题是需要解决的关键问题。......
2023-11-23
数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。......
2023-11-23
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
目前,我国许多高校“看电影学外语”的教学模式为越来越多的教师所采纳和应用。在原版电影中学生能接触到大量形象生动、标准地道的生活语言,从而充分调动学生的语言学习积极性,有利于培养学生的语感和听说能力。自20世纪80年代至今,国内外众多学者,一直不断地对英文电影在教学中的应用展开研究,人们已经逐渐认识到原版电影在大学英语教学的诸多优势。......
2023-11-23
相关推荐