首页 理论教育语言服务:自然语言处理助力数字出版阅读

语言服务:自然语言处理助力数字出版阅读

【摘要】:数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。

数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。据Francis和Kucera(1982)[3]统计,在一百多万词的Brown语料库中,频率居前1000单词就可以覆盖72%的语料库;频率居前2000单词可以覆盖79.7%;频率居前5000单词可以覆盖88.7%;频率居前6000单词可以覆盖89.9%;频率居前15851个单词可以覆盖97.8%,从中可发现常用的单词(词频在前2000个单词)大约占语篇的80%。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。我国古典作品十三经(《诗经》、《尚书》、《左传》、《公羊传》、《论语》、《孟子》等13部典籍),全部字数为589283个字,其中不相同的单字数为6544个字。《毛泽东选集》四卷,总字数为660273个,使用不同的单字只有2981个[5]教育心理学家、心理测量专家、语言学家和其他研究人员多年来一直使用文本样本中的单词频率统计作为一种估算单词难度的方法,其基本假设是文本中出现频率低的单词是难度大的单词[6]。在学习一种语言的过程中,首先掌握这两千个左右的常用单词,就可以基本了解一般文章的大意。

所以,一个读者的语言水平越高,所认识的难词、或者说低频词就越多。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。所以数字出版平台可以通过提供不同频段的词汇表来满足语言水平不同的读者需要。(www.chuimin.cn)