首页 理论教育自然语言处理技术助推中文信息处理发展

自然语言处理技术助推中文信息处理发展

【摘要】:中文信息处理技术是未来10年我国经济社会发展的关键领域,必须注意从宏观和微观上制定科学的发展策略,下面给出几个方面的考虑[7]。要发展中文信息处理,语言资源和人才培养是关键因素。所以,人才结构不合理、人才的知识结构不合理使中文信息处理迟迟停留在文字信息化阶段,进入不了语言信息化阶段。

在今天的信息时代,语言文字信息化已经与国家安全息息相关。语言文字是信息的主要载体,人类信息大约80%是以语言文字为载体的,语言文字的信息化直接关系着国家信息化的水平,关系到国家经济发展和国家安全,进而影响到国家在国际上的竞争力。信息时代的特点决定了经济、文化社会科技环境等要素共同构成国家安全。国家安全包括了文化安全、经济安全、环境安全、资源安全、网络安全、信息化安全和信息“疆域”安全。

信息疆域改变了由领土、领海、领空构成的国家空间的结构,使得国家主权有了新的内涵。没有信息疆域安全,政治军事和经济安全也就缺乏保障,也就没有完全意义的国家安全。因此,维护信息疆域安全成为维护国家主权完整的核心内容之一。

信息疆域的安全即语言文字信息化的安全,语言文字信息化对国家安全的作用完全凸显出来。语言文字信息化已经成为我国信息化的基础,甚至可以说是前提之一,而中文信息处理在技术上的落后,使得在今天的互联网方面,我国缺少自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。所以,加快语言文字信息化进程是国家信息化发展的迫切需要;语言信息技术属于大型技术,需要长期规划,分阶段实施。中文信息处理技术是未来10年我国经济社会发展的关键领域,必须注意从宏观和微观上制定科学的发展策略,下面给出几个方面的考虑[7]

要发展中文信息处理,语言资源和人才培养是关键因素。国家需要重视语言资源的基础建设,加大投资的力度,深度开发建设语料库及整合语言资源。虽然目前我国已经开发了大批汉语语料库,已建成的用于不同研究目的的语料库在规模、设计等方面各具特色,已被证实是对语言进行广泛研究的最好的辅助手段,语料库自身所特有的这些优点是其他研究手段不可替代的。但是已建成的语料库无论从规模还是数量上都还远远不够。(www.chuimin.cn)

语言资源建设是一项浩大的工程,需要大量的人力、物力支持,但目前我国在这方面的投资还极其不够,外企在该领域的投入远超过国内的企业。目前,国外的自然语言处理技术遥遥领先,如果我们在基础资源建设方面再逊于他们,我国的中文信息处理水平很难赶上国际水平,要领先就更困难了。

语言信息技术属于交叉学科综合性技术,需要培养大量复合型人才。从学制上看,我们的教育制度不适合语言信息产业和信息科学的发展,文理分家太严重。信息技术需要文理科结合。解决语言文字问题,语言文字学家多数不懂信息化,计算机专家很难把握语言文字的微妙。所以,人才结构不合理、人才的知识结构不合理使中文信息处理迟迟停留在文字信息化阶段,进入不了语言信息化阶段。

鉴于语言资源、人才培养和研究方法在中文信息处理方面的重要性,下面针对中文信息处理现状和特点,对解决这几个方面存在的问题提出几点考虑。