首页 理论教育构建我国最大且广泛影响的汉语语料库

构建我国最大且广泛影响的汉语语料库

【摘要】:我国从20世纪90年代初开始研制汉语语料库,当前规模最大、影响最广的是国家语言资源监测与研究中心所做的工作。为了完成这项系列性的任务,分布于多所大学的研究人员在后台做了大量的艰苦的数据收集与处理工作,每年都形成10亿量级的汉语语料库。

进入21世纪以后,基于大规模语料库的统计方法在自然语言处理中得到快速发展,以语料库为研究对象和基础的语料库语言学迅速崛起,并进一步推动了自然语言处理相关技术的快速发展,统计机器翻译逐渐成为国际机器翻译研究的主流。近10年来,随着国际互联网技术的迅速发展和普及,国内一批面向计算机网络的信息搜索系统脱颖而出。

我国从20世纪90年代初开始研制汉语语料库,当前规模最大、影响最广的是国家语言资源监测与研究中心所做的工作。在国家语言文字工作委员会倡导的“珍爱中华语言资源构建和谐语言生活”方针的指引下,国家语言资源监测与研究中心积极实践,每年编制《中国语言生活绿皮书》之《中国语言生活状况报告》(国家语言资源监测与研究中心2008)。

为了完成这项系列性的任务,分布于多所大学的研究人员在后台做了大量的艰苦的数据收集与处理工作,每年都形成10亿量级的汉语语料库。10亿量级的汉字数据堪称海量信息,海量语言信息处理是当前计算语言学与自然语言处理技术的研究热点之一,《中国语言生活状况报告》的发布及其支撑研究为海量语言信息处理研究揭开了精彩的第一章[4],为国家语言方针政策的决策提供参考,为语言文字研究者、语言文字产品研发者和社会其他人士提供语言服务,引领社会语言生活走向和谐[5]。《中国语言生活绿皮书》既是中文信息处理研究成果的具体体现,也是中文信息处理研究的重要参考。

总结过去的中文信息处理60年中所取得的成果,概括起来可以归纳为如下几个方面[1]

1)语文现代化取得丰硕成果,有关规范化汉字、汉语拼音和普通话的一系列的国家法规、标准及规范已经形成;(www.chuimin.cn)

2)汉字信息处理技术已达到实用化水平,并在实际应用中日趋成熟;

3)已建设完成一批颇具影响的汉语信息处理用语言资源库,部分汉语信息处理技术已在实际应用中发挥作用;

4)中文信息处理的国内外学术交流与合作环境已经建立,中文信息处理正在世界范围内迎来空前繁荣时期。