首页 理论教育非数值信息的计算机表示方式

非数值信息的计算机表示方式

【摘要】:■任务情景小明在使用word进行文档处理时,想到计算机中只有0和1,很疑惑文字、图片等非数值信息在计算机中是怎么存储和处理的呢?■任务分析◆英文字符的编码◆汉字信息的表示◆其他信息的表示■知识准备1.英文字符编码在计算机中,对非数值的文字和其他符号进行处理时,要对文字和符号进行数字化处理,即用二进制编码来表示文字和符号。目前广泛使用的汉字机内码是变形的国标码。汉字的矢量表示法将汉字视为由笔画组成的图形。

■任务情景

小明在使用word进行文档处理时,想到计算机中只有0和1,很疑惑文字、图片等非数值信息在计算机中是怎么存储和处理的呢?小明带着他的学生继续学习。

■任务分析

◆英文字符的编码

◆汉字信息的表示

◆其他信息的表示

■知识准备

1.英文字符编码

在计算机中,对非数值的文字和其他符号进行处理时,要对文字和符号进行数字化处理,即用二进制编码来表示文字和符号。字符编码就是规定用怎样的二进制编码来表示文字和符号。由于字符编码是一个涉及世界范围内有关信息的表示、交换、处理、存储的基本问题,因此,都是以国家标准或国际标准的形式颁布实施的。对英文字符的编码最常用的是ASCII码。

ASCII(American Standard Code for Information Interchange)码是美国信息交换标准代码,也是国际通用的编码标准。ASCII码采用7位二进制编码,共27=128个,其中包括:0~9的数字字符,52个英文字母,32个标点符号和运算符号,34个控制字符。具体编码及对应的字符信息如图1-3-1所示。

图1-3-1 ASCII码表

基本的ASCII表只用了字节的低7位,最高位没有使用。后来的扩充ASCII码表将最高一位编入,用八位的二进制数给字符进行编码,共有28=256种组合,可给256个字符进行编码。扩充的ASCII码在基本ASCII码的基础上增加了128个特殊符号,如制表符├┍┏等。扩充ASCII码成为目前常用的编码。

2.汉字编码

由于汉字数量较大,种类繁多,在进行输入、存储、处理和输出的时候需要不同的编码来实现,汉字的编码包括有输入码、机内码、字形码等。汉字的处理过程如图1-3-2所示。

图1-3-2 汉字处理过程

1)汉字的输入码

为方便人们利用标准键盘输入汉字而制定的汉字编码,称为汉字输入码,又称为外码。常用的有拼音输入法、五笔字型输入法、智能ABC、自然码、区位码等。按编码方式分类可分为:流水码、拼音码、拼形码、音形码四大类。

流水码——按照汉字的排列顺序编号形成的编码,如:区位码、电报码等。其特点是:编码规则简单、码长,但编码与汉字的“音、形、义”之间没有直接对应关系,难记忆。(www.chuimin.cn)

拼音码——利用汉字的声母和韵母在键盘上对应输入的编码。如:全拼、简拼、双拼等。其特点是:利用汉语拼音不用记忆编码,易上手、易掌握,但重码率高,影响输入速度。

拼形码——按汉字的字型构成的编码,可分为字根编码和笔形编码两类。如:五笔字型、郑码等。其特点是:重码率低、易盲打、速度快,但需要记忆字根和字形。

音形码——按汉字的音、形结合形成的编码。如自然码、智能ABC等。其特点是:以音为主、形为辅、重码率低、易掌握、记忆量较少。

2)机内码

汉字的机内码是计算机系统内部进行汉字的存储、加工处理、传输统一使用的代码,简称汉字内码。不同的系统使用汉字机内码可能不同。目前广泛使用的汉字机内码是变形的国标码。这种格式的机内码是将GB2312—80交换码的两个字节的最高位分别置为1而得到的。其最大优点是机内码表示简单,且与交换码之间有明显的对应关系,同时也解决了中西文机内码存在二义性的问题。

我国于1980年制定的国家标准GB2312—80,代号为国标码,是国家规定的用于汉字信息处理的代码依据。GB2312—80中规定了信息交换用的6763个汉字和682个非汉字图形符号的代码。6763个汉字又按其使用的频度、组词能力以及用途大小分成一级常用汉字3755个和二级常用汉字3008个。一级汉字按拼音字母顺序排列;若遇同音字,则按起笔的笔形顺序排列;若起笔相同,则按第二笔的笔形顺序排列,依此类推。二级汉字按部首顺序排列。

国标码中每个图形或汉字的交换码,均用两个字节的低7位二进制表示,为了避免与基本的ASCII码中的控制字符发生冲突,两个字节都从00100001B开始编码,汉字国标码通常用十六进制数表示,两个字节都从21H开始编码。

3)字形码

字形存储码是计算机输出汉字的二进制信息,也称字模。主要有点阵表示法和矢量表示法两种形式,通常采用的是数字化点阵字。

(1)点阵式字形码。汉字点阵的大小有多种规格,汉字字形质量随着点阵数的增加而优化。点阵越大,描述的字形越细致美观,质量越高。16×16点阵一般用于计算机屏幕显示,24×24点阵常用于普通打印字形,64×64点阵可以区别仿宋体和黑体字,96×96点阵、128×128点阵和256×256点阵能充分表示出字形的笔锋和曲线。当然,点阵数越多,描述一个汉字字形码的字节数也越多,需要计算机的存储空间也越大。在点阵字模中,每个点在存储器中用一个二进制位(bit)存储。例如:16×16点阵中,有16×16=256点阵,占用256÷8=32个字节的存储空间;128×128点阵中,有128×128=16384点阵,占用16384÷8=2048个字节的存储空间。在相同点阵中,不管汉字笔画的多少,每个汉字所占的字节数相等。图1-2-3是“中”字的16×16点阵字形及字形编码。

图1-2-3 16×16点阵字形与字形编码

(2)汉字字形矢量表示法。汉字的矢量表示法将汉字视为由笔画组成的图形。首先把汉字字形分布在精密的点阵上,然后抽取汉字每个笔画的特征坐标值,最后把这些坐标值组合起来即得到这个汉字字形的矢量信息。由于组成每个汉字的笔画数不一样,不同汉字抽取的特征点差别很大,所以,每个汉字字形在矢量汉字库中所占的长度是不相等的,从矢量汉字库中读取汉字字形信息比点阵汉字库更复杂。

矢量汉字的优点是所需存储空间小,对汉字进行放大、缩小、平移、倾斜、旋转、投影等变换可以得到变化无穷的艺术汉字效果。

3.其他信息的编码

除了数值和字符以外,计算机还可以处理图形图像、声音、视频等多媒体信息,这些所有的信息都要进行二进制编码计算才能识别和处理。计算处理图片的时候同汉字字形码一样,也有两种方式,一种是点阵图,另一种是矢量图。其他的信息编码方式请查阅相关资料,在此略过。

■任务实施

计算机是如何接收、识别和处理用户从键盘上输入的中文信息的?请用语言或图形的描述计算机处理中文信息的过程。