首页 理论教育计算机字符编码方式简介

计算机字符编码方式简介

【摘要】:计算机中的信息都是用二进制编码表示的,用来表示字符的二进制编码称为字符编码。汉字输入码也叫外码,是由键盘上的字符和数字组成的,目前流行的编码方案如下。汉字字形码通常有两种表示方式,即点阵和矢量。

计算机中的信息都是用二进制编码表示的,用来表示字符的二进制编码称为字符编码。

1.西文字符编码

计算机中最常用的字符编码是美国信息交换标准码(American standard code for information interchange,ASCII),其被国际标准化组织制定为国际标准。ASCII码有7位码和8位码两种版本。国际上通用的是7位ASCII码,用7位二进制数表示一个字符的编码,共有27=128个不同的编码值,相应地可以表示128个不同字符的编码,见表1-4。

表1-4 标准ASCII码字符表

2.国标码和区位码

汉字信息交换码简称为交换码,也叫作国标码。

(1)国标码规定了7445个字符编码,其中有682个非汉字图形符和6763个汉字代码。国标码有一级常用字3755个,二级常用字3008个。一级常用字按照汉语拼音字母排序,二级常用字按照偏旁部首排序,部首顺序按笔画多少排序。

(2)两个字节存储一个国标码,每个字符的最高位都是0。国标码的编码范围是2121 H~7E7EH。

(3)与西文的ASCII码表类似,国标码也有一张码表,7445个国标码被放在一个94行×94列的表中。其中每一行称为一个汉字的“区”,用区号表示;每一列称为一个汉字的“位”,用位号表示。一个汉字的区号和位号的组合就是该汉字的“区位码”。

(4)区位码和国标码之间的转换有两大步骤。

①将十进制的区号和十进制的位号分别转换为十六进制

②将转换后的十六进制的区号和位号分别加上20H,就成为该汉字的国标码,即汉字国标码=区位码的十六进制区位号数+2020H。(www.chuimin.cn)

3.其他汉字编码

其他汉字编码包括汉字输入码、汉字内码、汉字字形码和汉字地址码等。

(1)汉字输入码。汉字输入码也叫外码,是由键盘上的字符和数字组成的,目前流行的编码方案如下。

声码:全拼输入法、双拼输入法等。

形码:五笔输入法。

音形码:自然码输入法。

(2)汉字内码。汉字内码是在计算机内部对汉字进行存储、处理的汉字代码,它应能满足存储、处理和传输的要求。当一个汉字输入计算机并转换为内码后,才能在机器内传输和处理。内码需要两个字节存储,每个字节以最高位置“1”作为内码的标识。国标码和内码的关系可以表示为:汉字的内码=汉字的国标码+8080H。

(3)汉字字形码。汉字字形码又称为汉字字模,用于汉字在显示屏或打印机输出。汉字字形码通常有两种表示方式,即点阵和矢量。

用点阵表示字形时,汉字字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型的汉字为16×16点阵,普通型的汉字为24×24点阵,提高型的汉字为32×32点阵、48×48点阵等。

点阵规模越大,字形就越清晰美观,所占用的存储空间也就越大。其缺点是字形放大后产生的效果较差。

矢量表示方式存储的是描述汉字字形的轮廓特征,当要输出汉字时,通过计算机的计算,由汉字字形描述生成所需大小和形状的汉字点阵。矢量化字形描述与最终文字显示的大小、分辨率无关,因此可以产生高质量的汉字输出。

(4)汉字地址码。汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。需要向输出设备输出汉字时,必须通过地址码。汉字库中,字形信息都是按照一定顺序连续存放在存储介质上的,所以汉字地址码也大多是连续有序的,而且与汉字内码间有着简单的对应关系,以简化汉字内码到汉字地址码的转换。