首页 理论教育汉字的表示及GB2312—80码介绍

汉字的表示及GB2312—80码介绍

【摘要】:汉字也可以用和字符相同的方法编码表示。由于汉字个数多,采用一个字节的编码方法显然不行,因此,可采用两个字节或多于两个字节来表示一个汉字的编码方法。GB2312—80码就是根据这样的方法制定的汉字编码的中国政府标准。因GB2312—80码只编码了常用的6763个汉字,所以GB2312—80码也称为常用汉字编码。在GB2312—80码中,汉字“啊”的二进制编码为10110000 10100001。汉字“啊”的二进制码具体格式如图2-7所示。

汉字也可以用和字符相同的方法编码表示。但是,汉字编码要考虑两个问题:

(1)汉字通常是和字符混合使用的,因此,汉字编码方案要考虑和字符编码方案的兼容问题。

(2)汉字不是拼音文字,不能像英文那样只对26个字母编码就可以解决英文单词的编码。汉字是方块文字,并且个数很多,所以用于编码的符号位数要更多一些。

ISO646码,或者说ASCⅡ码是一种用7位二进制码表示字符的编码,计算机的基本存储和传送单位是字节,一个字节是8位二进制码,因此,7位二进制码表示的字符在计算机中存储和传送时字节的最高位添0,例如,字符h的ASCⅡ码为1001000,但字符h在计算机中存储和传送时表示为01001000。根据字符编码的这一特点,可规定字节的最高位为0时,为字符编码,字节的最高位为1时,为汉字编码。这样就可解决汉字编码和字符编码的兼容问题。

由于汉字个数多,采用一个字节的编码方法显然不行,因此,可采用两个字节或多于两个字节来表示一个汉字的编码方法。GB2312—80码(信息交换用汉字编码字符集——基本集)就是根据这样的方法制定的汉字编码的中国政府标准。GB2312—80码也称作国标码。(www.chuimin.cn)

分析表2-4的ASCⅡ码,其中前面0~31,共计32个字符是控制字符,第2列的首字符(SP)和第7列的末字符(DEL)也可归入控制字符,控制字符在计算机设备之间的数据交换中有特定的含义,因此不能改做它用。除控制字符外的其余94个字符可用来编码汉字。由于汉字个数太多,汉字总共有数万个,但常用的汉字仅5000个左右,而94×94=8836,因此可用两个字节编码表示一个汉字。GB2312—80码中编码的常用汉字共计6763个,另外还编码有汉语注音字母、希腊字母、拉丁字母、俄文字母、日文假名等。因GB2312—80码只编码了常用的6763个汉字,所以GB2312—80码也称为常用汉字编码。在GB2312—80码中,汉字“啊”的二进制编码为10110000 10100001。汉字“啊”的二进制码具体格式如图2-7所示。

图2-7 汉字“啊”的编码

这里讨论的汉字编码是指汉字在计算机内存储和处理时的编码,因此也称为汉字的机内码。汉字还有输入码和输出码,汉字的输入码是用户通过键盘输入汉字时的编码,汉字的输出码是通过输出设备输出汉字时的编码。汉字的输入码和输出码将在第4章讨论。