首页 理论教育数字出版的语言服务:汉语字处理技术能提升阅读体验

数字出版的语言服务:汉语字处理技术能提升阅读体验

【摘要】:1978年5月,上海推出了一台汉字信息处理实验样机。图7-1 汉字处理框图由于计算机只能直接处理和保存以二进制数字形式存在的信息,因此所有字符必须经过编码后才能被计算机处理。汉字区位码是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。

语言和文字既是信息、知识、文化载体,也是文化的组成部分。汉字作为中华民族璀璨文化中独具特色的一项发明,在数千年一脉相传、源远流长的历史中,为记载、继承和传播中华文化建立了不朽的功勋。然而,当20世纪40年代电子计算机问世,并迅速引发席卷全球的信息技术革命,如何对汉字进行编码、存储、输入和输出等一系列关于汉字处理的难题,曾一度成为电脑在中国普及和推广的“拦路虎”。

汉字信息处理主要指以汉字为处理对象的相关技术,包括汉字字符集的确定、编码、字形描述与生成、存储、输入、输出、编辑、排版以及字频统计和汉字属性库构造等等。最早的计算机汉字编码输入始于20世纪50年代,60年代完成了“见字识码”的方案设计和码本。1978年5月,上海推出了一台汉字信息处理实验样机。80年代,在联想汉卡、四通中文电脑打字机之后,中国的汉字编码出现了“万马奔腾”的局面,如五笔字型,郑码、拼音输入法、智能ABC等,各种较规范、易学易用的输入法层出不穷,使汉字能快速输入到计算机中。汉字字形库(或称汉字字型码、汉字发生器编码)存放如汉字的宋体、黑体、楷体等各种点阵或曲线字形信息,通过专门的处理程序把要输出的汉字转换成对应的汉字字形后在显示器、打印机上输出,汉字库中还包含了汉字放大、缩小、斜体、粗体等字体变化的信息。

汉字处理框图如图7-1所示。

978-7-111-47385-5-Chapter07-1.jpg

图7-1 汉字处理框图

由于计算机只能直接处理和保存以二进制数字形式存在的信息,因此所有字符必须经过编码后才能被计算机处理。

(1)汉字输入码

汉字输入码也称外码,是为了将汉字输入到计算机设计的代码。汉字输入码的种类很多,常见的有如下几类:

1)数字编码:区位码、电报码。

2)音码类:全拼、双拼、微软拼音等。

3)形码类:五笔字型法、郑码输入法等。

4)音形编码:智能ABC、自然码等。

(2)国际码

为了使每个汉字有一个统一的代码,1980年,我国颁布了第一个汉字编码的国家标准:GB2312—1980《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准,其规定用两个字节的十六位二进制数表示一个汉字,用以表示6763个常用汉字和682个其他符号。

在具体介绍国际码之前,先要说一下区位码。汉字区位码是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。

首先,把汉字与符号按照科学的方法排列组成一个有94行,每行有94列的方阵,在此方阵中,每一行称为一个“区”,每一列称为一个“位”,因此,这个方阵实际上组成了一个94×94汉字字符集。其中94个区(区号分别为01到94)、每个区内有94个位(位号分别为01到94),一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的区位码。(www.chuimin.cn)

在汉字的区位码中,高两位为区号,低两位为位号。例如,“中”字是排在54区48位,所以“中”的区位码是5448。

由于计算机内都是以二进制表示,为了与西文字符ACSII(Ameri-can Standard Code for Information Interchange)码兼容,把区位码的区号和位号分别加上十进制数32才构成了国际码(因为ACSII码中,32之前都是不显示字符),所以“中”的国际码就是8680。

国标码又称为GB2312—1980信息交换用汉字编码字符集,共7445个,常用汉字6763个,一级汉字3755,二级汉字3008。

(3)机内码

机内码是汉字在设备或信息处理系统内部最基本的表达形式,每个汉字占两个字节,用两个连续的字节进行编码,每个字节的最高位为1。这是为了与西文字符的编码相区别,因为西文字符ACSII(A-merican Standard Code for Information Interchange)码每个字符占一个字节,但一般只用7位,最高位不用,一般为0。

汉字“中”的国际码(8680)和其机内码的二进制形式如下所示:

国际码 机内码

(0101011001010000)B(1101011011010000)B

在输入汉字时,通过键盘输入的汉字编码,要经代码转换程序转换成汉字机内代码。

(4)字形码

汉字字形码是汉字的输出码,通常有两种表示方式:点阵和矢量表示方式。其中点阵存储的是汉字字形点阵的代码,如16×16、24×24、32×32、48×48等。矢量存储的是描述汉字字形的轮廓特征。

(5)地址

汉字所有字形码的集合称为汉字库,汉字地址码是每个汉字字形码在汉字字库中所占第一存储单元的地址,地址码和机内码要有简明的对应转换关系,以便根据机内码快速找到其对应的字形码。

虽然GB2312—80《信息交换用汉字编码字符集》基本集能够基本满足一般输入工作需要,但GB2312支持的6763个常用汉字只占我国汉字数量极少的一部分,因此,1995年我国颁布了汉字扩展规范GBK1.0,它收录了21886个符号,分为汉字区和图形符号区,汉字区包括21003个字符。

2000年我国发布的《信息技术信息交换用汉字编码字符集基本集的扩充》(GB18030),是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。