首页 理论教育自然语言处理技术助力数字出版阅读!

自然语言处理技术助力数字出版阅读!

【摘要】:在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。

自然语言处理(Natural Language Processing,简称NLP)是用计算机来研究和处理自然语言的技术,是人工智能(Artificial Intelligence)领域研究的主要内容。从20世纪40年代末50年代初发展至今,自然语言处理技术已经取得了相当大的进展,目前已成为当代计算机科学中一门重要的新型学科。随着人类信息量的爆炸增长,对信息处理的自动化和智能化要求越来越急迫,一种与传统的数学计算那样精确计算不同的“软件算”将会出现,那就是以自然语言处理技术为基础的词计算、语义计算、语音计算及语构、语义和语境理解,自然语言处理技术在人类社会中将发挥着越来越重要的作用,而且自然语言处理技术为实现数字出版提供语言服务提供了语言处理工具上的可能性。

人类的语言有口语和书面语之分,但从语言组成层次的角度均可分为词汇、句子、篇章等,在自然语言处理研究过程中,对上述三个方面的研究方法、研究的复杂性等方面区别很大,难度和复杂性不断升级。

首先,词是语言的最基本的建筑材料,人类的所有语言,无论是口头语言、记号语言还是书面语言,都是由词构成的。在自然语言处理中,无论是语音还是文本语言的处理,都要求具有丰富的词的知识。由于词在语言中的基础层次属性,决定了词汇的处理是自然语言处理的基础。例如,目前自然语言处理研究的热点中,从语音识别、机器翻译到Web上的信息检索,从人类语言处理的心理语言学模型和生成语言学模型都是建立在词汇知识的基础上的。虽然,对于一些表意文字语言,词汇层次的处理有着相当的难度,例如对于汉语这样的表意文字语言,由于书写时词与词之间无空格,计算机自动分词的准确率还不能令人满意(大约90%)[1],从而导致后续的句子和篇章的处理精度受到影响,已经成为中文信息处理发展的瓶颈。不过总的说来,目前词汇处理在自然语言处理中属于成熟的技术,即使对于中文信息处理,在过去几十年研究中也已经取得了丰富的成果,建设了很多宝贵的语言处理资源,如词频和各种电子词典、语料库和汉语语言处理工具等。所以,目前数字出版提供词汇层次的语言服务是可行的。

其次,是对句子的处理,即句法分析。句法分析(Parsing)就是指对句子中的词语语法功能进行分析。如果说单词是语言处理的基础,那么句法就是它的骨架。对句子的研究涉及单词之间的形式关系,单词怎样类聚为词类(part-of-speech)的类别,怎样与相邻的单词组合成短语,以及一个句子的单词与单词之间彼此依赖的方式。如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。因此句法分析中首先涉及的是词的分类问题,如“名词”、“动词”、“介词”等,以便提供关于单词及其邻近成分的大量有用信息。为了理解一个句子的意思,需要对文本中的句子进行词类标注,这是一个精细和庞大的工作,尽管现在有一些自动标注软件,但很多时候还需要人工干预。

第三,自然语言处理过程中,完成了词汇处理句法分析后,并不能完全解决一个完整文本的语义问题。例如,通过阅读说明书来学习一种新软件,或者对具体做法提出建议,不仅要了解说明书中的文字意义,还要求对当前的计算机,对有关的软件及其使用情况都有深入的知识,且对用户也要有一定的知识。因此,计算机为了准确理解一篇文本丰富和准确的意义,需要引入广泛的知识源和推理技术。这些知识源包括:词本身的意义、语法结构所带的意义、话语的结构知识、发生话语的上下文知识以及与话题相关的常识等。因此,自然语言处理要完成对一个语篇的处理,不仅需要句子的标注,还需要进行更深入复杂的工作。(www.chuimin.cn)

数字出版过程中处理的所有文档都是普通文本,如果要提供句子和整体语篇层面的服务,就需要进行词汇、句法分析的词性标注及后续的语义分析,所以在目前条件下提供关于句子和整体语篇方面的服务,因涉及的信息处理量太大,无论从技术还是人力经济方面还难以实现,但可通过某些特殊策略,通过“简化算法”和人力计算的辅助,实现在数字出版中提供句子层次的某些服务。

人们进行语言学习和阅读时,遇到的主要困难是词汇和难句问题。例如,读一本有趣的英文小说,一般来说,是由于生词和少量句子影响阅读的质量。如果停下来查字典会影响阅读的连续性和趣味性;如果在阅读内容之前,就能对少量的生词和难句进行预习,减少生词数量,或阅读中能快速查询到生词解释,则会对阅读产生有益的帮助,同时还可以提高外语水平。所以,数字出版中可首先提供词汇和句子方面的语言服务。

在数字出版中应用自然语言处理这个工具,离不开词典的支持。世界各国的自然语言处理技术发展水平不同,但由于词汇抽取和各种词典建设是自然语言处理技术的基础,属于成熟的技术,因此在已经建成的词典资源的基础上,再新建一些词典,构成词汇和难句抽取服务所需要的词典资源是可能的。英语的自然语言处理水平处于世界先进水平,对英语实现词汇抽取服务很容易的。对于汉语,虽然目前在大规模范围内需要详细分类词典的情况下,实现词汇抽取服务有困难,但基于汉语在自然语言处理技术方面几十年的研究成果和建设的各种资源,在一定范围内实施是可以的。对于句子,可通过参考传统的文本难度算法避开词性标注、通过人力计算策略避开机器翻译不能保证准确性的问题,提前把所读内容中的难句提取出来,并给出翻译。