首页 理论教育数字出版中的自然语言处理技术助推国家级语料库建设

数字出版中的自然语言处理技术助推国家级语料库建设

【摘要】:但建立统计语言模型的基础是具有能全面反映一种语言情况的语料库,所以需要加大中文信息处理人才培养力度,集中力量打造国家级语料库。所以,要加强中文信息处理专业的人才培养,在语料库建设方面可采取人计算[20]的方式,完成国家级语料库建设,因为人计算研究的立足点是计算机无法或难以解决,但对于人来说却又轻而易举可以解决的问题。

对语言现象和语言符号关系的研究,传统的方法往往通过研究者的直觉内省判断语句是否合乎语法。随着语料库语言学的发展,人们可以通过对真实语料的统计,了解不同语言表达的使用频率,使得研究更具有客观性科学性。随着计算机科学的发展,语言学家可基于数学模型和统计的方法,对自然语言的句法和语义进行处理,这属于数理语言学和计算语言学研究的范畴。有趣的是,科学家发现,仅仅局限于语言本体研究或凭直觉行事已成为语言研究道路上的障碍。

1.自然语言处理与统计语言模型

统计语言模型研究专家吴军指出,在自然语言处理60多年的发展过程,基本上可以分为两个阶段,早期从20世纪50~70年代,是科学家走弯路的阶段。全世界的科学家对计算机处理自然语言的认识都被局限在人类学习语言的方式上,即用电脑模拟人脑。由于自然语言中词的多义性很难用规则描述,而且严重依赖于上下文,甚至是“世界知识”或常识,这种利用计算机处理自然语言的努力到20世纪70年代初是相当失败的。1970年以后统计语言学的出现才使得自然语言处理重新获得新生,并取得了非凡的成就。科学家们找到了基于数学模型和统计的方法,自然语言处理进入第二个阶段。

今天的机器翻译和语音识别已经做得很不错,而且有上亿人使用过,但这并非大多数人误以为的是靠计算机理解了自然语言而完成的,而实际上是全都靠数学,更准确地说是靠统计。随着计算能力的提高和数据量的不断增加,过去看似不可能通过统计模型完成的任务,渐渐变得可能了,包括很复杂的句法分析。

到了20世纪90年代末期,人们发现通过统计得到的句法规则甚至比语言学家总结的更有说服力。因此,今天的自然语言处理更多依靠的是统计语言模型(Statistical Language Model),它是所有自然语言处理的基础,并广泛应用于机器翻译、语音识别、印刷体或手写体识别、拼音纠错、汉字输入和文献查询[13]。但建立统计语言模型的基础是具有能全面反映一种语言情况的语料库,所以需要加大中文信息处理人才培养力度,集中力量打造国家级语料库。

2.中文信息处理与语料库建设

汉语是表意文字,汉语的连写习惯所造成的分词困难,使汉语的自然语言处理将花费比英语表音类语言更多的人力物力。“世界上只有极少数语言文字的书写方法没有词界,中文的汉字书写方式是其中之一。从20世纪60年代研制中文计算机输入到现在,三十多年了,中文信息处理技术的发展还是在输入法和储存检索方面打转,难以上升到使用中文做全面的中文数据管理的水平。其中原因很多,汉字书写方式没有词界是其中最明显的牵制因素。”[14]。为了解决汉语分词问题,一些汉语语言学家和信息处理专家提出“中文分词连写”,即在汉语书面语词与词之间人为添加空格的设想[15,16]。有的学者在这方面进行了探索,在2004年,就提出利用分词软件,将挨字连写文本转换为分词连写的文本,即率先在出版界试行“机辅”分词连写[17],但其实施面临着改变传统习惯、增加费用等巨大困难,让上亿的人们接受并按其在实际生活中使用几乎是不可能的。此外,不同的人对同一篇文本的分词结果也是不同的,基于手工规则的分词方法在评测中不敌统计学习方法[18],所以至今在这个方面的研究没有什么新进展。(www.chuimin.cn)

中文信息处理的发展必须有大规模的优质语料库支撑,为此在现有技术条件下,只能通过加大人力、物力和全方位的联合,确保重点突破的策略来解决。为解决中文语言资源建设问题,我国相关领域的专家学者一直在呼吁并组建了中文语言资源联盟(Chinese Linguistic Data Consortium,简称CLDC,http://www.chineseldc.org),由中国中文信息学会于2003年发起,由于中文语言(包括文本、语音、文字等)资源建设和管理领域的科技工作者自愿组成的学术性、公益性、非盈利性的学术团体,其目的是建成能代表当今中文信息处理国际水平的、通用的语言信息与知识库,并使之具有完整性、权威性、系统性和开放性的特点,涵盖中文信息处理各个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等[19]。但要使中文信息处理的资源工程真正符合时代要求的发展,需要国家政策的支持,在学科建设和力量联合方面的具体举措才能实现。

首先,要扩大中文信息处理专业的招生。几十年来,由于中国的学科分类的问题,语言学不是一级学科,语言学相关学科、专业都是放在中文系(或文学院)和外文系(或外国语学院)来建设的,在我国只有几个研究所和几所重点大学有中文信息处理专业,一般高校的学生几乎对中文信息处理一无所知,所以中文信息处理研究领域的人才短缺。同时有些人才又被国外的研究机构或跨国企业聘任。目前一些国外厂商尤其看重中文信息处理技术和产业的价值,在其本土或在中国建立研究基地、或以低廉的价格购买中国学者的研究成果、或径直购买其劳动力,来进行中文信息处理的研究。外国的信息产业,凭借其财力充足的优势,吸引了大量华人参与其中文信息处理技术的研究开发,又因其集成能力强,所以形成逼人之势,不容忽视。所以,要加强中文信息处理专业的人才培养,在语料库建设方面可采取人计算(Human Computation)[20]的方式,完成国家级语料库建设,因为人计算研究的立足点是计算机无法或难以解决,但对于人来说却又轻而易举可以解决的问题。

第二,要集中所有学校和科研单位的力量,按照统一的标准建立国家级语料库,然后需要建立各种分类语料库。如果说目前中国语言资源分散、标准不统一的原因是历史遗留问题,是初级过程的特有表现,几乎是无法避免的。那么,现在必须制定一个统一的建立各种语言资源的标准,然后在此标准的基础上行动起来。虽然在标准的建设方面存在困难[21],但通过求同存异、同心协力的努力,在中文信息处理多年发展的基础上制定统一的标准,实现采用部门协作、人机结合的方式建立大型优质的国家级语料库是可能的。

除此之外,在中文信息研究方法上,应尝试多条路的方法。例如,除了在现有研究的基础上继续走目前的基于统计和规则方法混合发展的道路深入研究,在大规模语料库和充足的人力物力支持下,不断改进语言处理模型等,扩展研究成果;也可尝试不再沿用西方的句法和语义分析体系,考虑开发适合中文的分析体系,中文分词连写是否具有继续探索的必要性等也是需要考虑的问题。

我国国家中长期语言文字事业改革和发展规划纲要(2012—2020年)提出了“提升语言文字信息化水平。加强面向中文信息处理的语言文字基础工程建设,开展以语言文字处理为核心的关键技术联合攻关,形成一批具有自主知识产权的核心技术,提高中文信息处理水平。建设语言文字数据库、资源库和学习平台。”“推进国际汉语教育。加强国际汉语教育教师培训、教材建设和教学研究,继续推动汉语相关水平测试向海外拓展,增强中华文化国际影响力。继续发挥普通话、规范汉字和《汉语拼音方案》在国际汉语教育和海外华文教育中的主导作用,提升中文国际地位,促进中文成为有关国际组织的正式工作语言、国际会议的会议语言,提升中文在国际学术界的影响力。扩大、深化与世界各国和地区的语言文化交流与合作。”“建设古今汉字全息数据库。收集整理中国古今汉字,包括国外应用汉字,理清汉字发展演变的历史,推动中国文字的历史传承、现实应用及国际传播。建设中国百年语言文字规范标准数据库。收集整理中国百年来的语言文字规范标准,建设语言文字规范标准数据库。建设国家语言资源动态流通语料库。继续建设面向语言资源监测的平面媒体、有声媒体、网络媒体和教育教材等国家语言资源动态流通语料库。完善现代汉语语料库。”“发挥语言社团作用,建立语言志愿者人才库,广泛吸纳双语、多语人才,为社会提供语言援助。”[22]等语言文字事业发展目标,这些目标的建立和实施必将大大促进中文信息处理的发展。