首页 理论教育计算机导论:笔形码及字根分析

计算机导论:笔形码及字根分析

【摘要】:目前已提出了几百种不同的笔形码。表4-2 汉字的五种基本笔划3.130个字根汉字的字根有很多个,在五笔字型码中,把那些组字能力很强、使用频度很高的字根选为五笔字型码的字根,这样的字根共有130个。

汉字不是拼音文字,从汉字本身看不出它的读音,所以,拼音码之所以重码多,是因为拼音码从汉字的弱点出发构造编码,自然编码效率不会很高。

汉字是由若干笔划组成的方块字,笔形码就是从汉字的笔形出发构造汉字的编码。和拼音码相比,笔形码的优点是可编码的汉字集大,一般可在基本无重码的情况下编码出所有的6万多个汉字。但和拼音码相比,笔形码的缺点是用户需要记忆的东西较多。

目前已提出了几百种不同的笔形码。仓颉码和五笔字型码是两种编码方法较科学,且应用较多的笔形码。仓颉码是朱邦复1976年发明的,是最早的笔形码之一。但仓颉码在中国台湾、香港等地区使用较多,在大陆使用较少。五笔字型码是王永民于1983年发明的。五笔字型码在大陆使用较普遍。下面我们简单介绍五笔字型码的编码方法。

五笔字型码的编码特点是:把汉字分成三个层次、五种笔划、130个字根,以字根为编码码元、以三种字型拆分汉字、每字最多4码。

下面我们概要介绍五笔字型码中的一些概念和编码方法。

1.汉字的三个层次

汉字由笔划、字根、单字三个层次组成。在书写汉字时,不间断地一次连续写成的线条称为笔划。由若干笔划复合形成的相对不变的结构叫字根。由若干字根组成汉字的单字。

2.五种笔划

经过对汉字所有笔划的归类,五笔字型码确定了五种基本笔划:横、竖、撇、捺、折。并按照使用频度的高低,分别用数字1,2,3,4,5代表。五种基本笔划见表4-2。

表4-2 汉字的五种基本笔划

3.130个字根

汉字的字根有很多个,在五笔字型码中,把那些组字能力很强、使用频度很高的字根选为五笔字型码的字根,这样的字根共有130个。(www.chuimin.cn)

要使用标准键盘输入汉字,就需要把130个字根对应到键盘的26个英文符号键位上。为此,五笔字型码把130个字根分成五个区,每区五个位,每位包括若干个字根,对应标准键盘的一个英文符号键。这样,除英文符号Z键不对应任何字根外,其余25个英文符号键就分别对应划分成五个区25个位。表4-3是五笔字型码的字根和键盘对应关系表。表中英文字母旁边的数字表示该组字根所属的区和位。例如,英文字母Q旁边的数字35表示该组字根属第3区的第5位。

4.三种字型

汉字可以由字根构成,但相同字根的不同排列方式将构成不同的汉字。例如。字根“口”和“八”上下排列是“只”字,字根“口”和“八”左右排列是“叭”字。五笔字型码把汉字分成三种字型:左右型、上下型、杂合型。凡不能归入左右型和上下型的汉字,均归入杂合型。在组字时,左右型的数字代号为1,上下型的数字代号为2,杂合型的数字代号为3。

5.编码规则

五笔字型码的编码规则是:

(1)字根是编码的码元。在把汉字拆分成若干个字根时,要拆出尽可能大的字根。例如,“佃”字就只能拆分成字根“人”和“田”,而不能拆分成字根“人”、“口”、“十”。

(2)字根的编码顺序和汉字从左到右、从上到下、从外到内的书写顺序一致。如“明”字的书写顺序是先“日”后“月”,字根“日”对应键位J,字根“月”对应键位E,所以“明”字编码的前两个码元是JE。

(3)最多只取4码,当字根多于4个时,取前3个字根和最后一个字根作为编码码元。

(4)末笔与字型交叉克服重码。例如,在S键位上有“丁、西、木”三个字根,当它们左边加上三点水将分别构成汉字“汀、洒、沐”。三点水的键位为I,这样,“汀、洒、沐”三个字的编码都是IS,将出现重码。补充末笔与字型交叉识别的编码规则后,“汀”字的末笔笔划对应的数值是2,“洒”字的末笔笔划对应的数值是1,“沐”字的末笔笔划对应的数值是4;又因这三个字的字型都是左右型,对应的数值是1。因此,“汀”字的末笔笔划和字型对应的数值是21,对应的键位是H,“洒”字的末笔笔划和字型对应的数值是11,对应的键位是G,“沐”字的末笔笔划和字型对应的数值是41,对应的键位是Y。这样,“汀、洒、沐”三个字的编码将分别是ISH、ISG、ISY,从而消除了重码。

五笔字型码的编码能力分析:因为五笔字型码是把字根作为编码码元,把130个字根按使用频度基本均分在25个键位上,最长为4个码元的编码方法,所以五笔字型码最多可编码254个汉字,即五笔字型码的最大编码能力超过39万。考虑到五笔字型码的码元个数通常不足4个的情况,以及字根使用频度不均匀的情况,五笔字型码的编码能力也可达到数万个,这和汉字的总数基本相同。编码能力强、无重码是五笔字型码的最大优点。

从上述讨论可知,用户使用五笔字型码输入汉字时,必须能正确拆分汉字,必须要记住字根和键盘的对应关系等,因此,五笔字型码的最大缺点是用户掌握困难,这也是该编码推广受到一定阻碍的主要原因。