首页 理论教育数字出版中的语言服务:词汇处理和句子分析技术助力阅读

数字出版中的语言服务:词汇处理和句子分析技术助力阅读

【摘要】:从这些数据可以看出,中文信息处理的第一步自动分词和词性标注尚未达到实用的要求,需要努力的道路还很长,正确率能够提高的空间也很大。是否应该考虑开发适合中文的分析体系?

1.自动分词和词性标注问题

虽然我国自20世纪90年代初就开始进行中文分词的研究工作,已取得不少成绩,但至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。就理论而言,分词和标注的正确率需达到100%才能满足各种应用的需求;而就实际而言,分词和标注的正确率也至少要达到99%才能保证其他应用的高效性和实用性。根据bakeoff2007中文信息处理评测的数据显示,在理想的状况下,分词的正确率最高仅为96.23%,而即使在分词100%正确的情况下,词性标注的正确率也才达到95.41%,同时在评测中排在前三名的系统依然是采用基于统计的方法。

从这些数据可以看出,中文信息处理的第一步自动分词和词性标注尚未达到实用的要求,需要努力的道路还很长,正确率能够提高的空间也很大。从采用的方法可以看出,随着研究的不断深入,基于统计的方法已逐渐暴露自身的缺陷,统计方法不可能解决所有的问题,还是需要结合基于规则的方法,才能在准确度上得以突破。(www.chuimin.cn)

2.中文信息处理句法分析和语义分析问题

我国基本上沿用西方的句法和语义分析体系,研究工作开展数年均未取得突破性进展。我国专家学者开始思考沿用西方那套理论体系是否合适?是否应该考虑开发适合中文的分析体系?甚至有学者提出汉语的核心是语义,可以抛开句法分析直接进入语义分析,以及到底句法分析优先还是语义分析优先等问题,也已成为学界争论的热点