汉字在计算机内的表示虽然汉字使用不同的输入码或其他方法输入计算机,但同一个汉字在计算机内部的编码仍然是一样的。在计算机内部,汉字的区号和位号分别用1个字节表示,为了与ASCII码有所区别,把字节的最高位均规定为1。BIG5使用了与GB 2312大致相同的编码范围来表示繁体汉字。其简化方案是使用两个字节表示编码,称为“UCS-2”。......
2023-10-22
汉字也可以用和字符相同的方法编码表示。但是,汉字编码要考虑两个问题:
(1)汉字通常是和字符混合使用的,因此,汉字编码方案要考虑和字符编码方案的兼容问题。
(2)汉字不是拼音文字,不能像英文那样只对26个字母编码就可以解决英文单词的编码。汉字是方块文字,并且个数很多,所以用于编码的符号位数要更多一些。
ISO646码,或者说ASCⅡ码是一种用7位二进制码表示字符的编码,计算机的基本存储和传送单位是字节,一个字节是8位二进制码,因此,7位二进制码表示的字符在计算机中存储和传送时字节的最高位添0,例如,字符h的ASCⅡ码为1001000,但字符h在计算机中存储和传送时表示为01001000。根据字符编码的这一特点,可规定字节的最高位为0时,为字符编码,字节的最高位为1时,为汉字编码。这样就可解决汉字编码和字符编码的兼容问题。
由于汉字个数多,采用一个字节的编码方法显然不行,因此,可采用两个字节或多于两个字节来表示一个汉字的编码方法。GB2312—80码(信息交换用汉字编码字符集——基本集)就是根据这样的方法制定的汉字编码的中国政府标准。GB2312—80码也称作国标码。(www.chuimin.cn)
分析表2-4的ASCⅡ码,其中前面0~31,共计32个字符是控制字符,第2列的首字符(SP)和第7列的末字符(DEL)也可归入控制字符,控制字符在计算机设备之间的数据交换中有特定的含义,因此不能改做它用。除控制字符外的其余94个字符可用来编码汉字。由于汉字个数太多,汉字总共有数万个,但常用的汉字仅5000个左右,而94×94=8836,因此可用两个字节编码表示一个汉字。GB2312—80码中编码的常用汉字共计6763个,另外还编码有汉语注音字母、希腊字母、拉丁字母、俄文字母、日文假名等。因GB2312—80码只编码了常用的6763个汉字,所以GB2312—80码也称为常用汉字编码。在GB2312—80码中,汉字“啊”的二进制编码为10110000 10100001。汉字“啊”的二进制码具体格式如图2-7所示。
图2-7 汉字“啊”的编码
这里讨论的汉字编码是指汉字在计算机内存储和处理时的编码,因此也称为汉字的机内码。汉字还有输入码和输出码,汉字的输入码是用户通过键盘输入汉字时的编码,汉字的输出码是通过输出设备输出汉字时的编码。汉字的输入码和输出码将在第4章讨论。
有关计算机导论的文章
汉字在计算机内的表示虽然汉字使用不同的输入码或其他方法输入计算机,但同一个汉字在计算机内部的编码仍然是一样的。在计算机内部,汉字的区号和位号分别用1个字节表示,为了与ASCII码有所区别,把字节的最高位均规定为1。BIG5使用了与GB 2312大致相同的编码范围来表示繁体汉字。其简化方案是使用两个字节表示编码,称为“UCS-2”。......
2023-10-22
图3-33表示平面的方法2.用迹线表示平面平面与投影面的交线称为平面的迹线。图3-34用迹线表示平面平面迹线是平面与投影面的共有线,所以迹线的一个投影与它本身重合,其余投影必在相应的投影轴上,规定位于投影轴的投影省略不画。作图时只要分别求出它们的正面迹点和水平迹点,然后连接同面投影就可以把其他表示平面的方法转换成用迹线表示。......
2023-06-28
GB/T 5612—2008《铸铁牌号表示方法》规定了铸铁牌号用代号、化学元素符号、名义含量及力学性能表示方法。2)牌号中代号后面有一组数字时,该组数字表示抗拉强度值,单位为MPa。各种铸铁名称、代号及牌号表示方法实例见表2-3。......
2023-06-22
收录金文,包括殷商、西周、春秋、战国诸时期金文字形和数量的字典,叫做《金文编》。这以后,汉字的数量就呈现不断上升的趋势了。从问世的年代来说,《说文解字》是我国记录汉字的第一部字典。《说文解字》主要收集汉字的小篆字形,共收字9353个。许慎首创将汉字依照形体和意义进行分部排列,共分540部;每部的第一个字,叫做“部首”。韵书也有对汉字形体和意义的说明,所以也是一种字典。......
2024-01-26
一个目标在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型的由来。下面结合目标的表示,给出其定义。,td};2)依据目标特征项序列,对训练集和测试集中的各个目标样本进行权重赋值、规范化等处理,将其转化为机器学习算法所需的模式向量。图6-2 目标的向量空间模型示意图......
2023-06-28
上面介绍的表示方法称为原码表示法。为统一加减运算规则,方便计算机运算,数值为负的整数在计算机内部实际上是采用补码来表示的。负整数补码求解的步骤为:先将负整数转换成原码的形式,最高位即符号位肯定为1,将除符号以外的每一位取反,得到称为反码的表示形式,最后将反码的最低位(末位)加1,即可得到补码的表示形式。......
2023-10-22
也就是说,一个IP地址由网络号和主机号两部分组成,网络号标识互联网中的一个特定网络,主机号标识在该网络中的一台特定主机。图8-5 IP地址结构2.IP地址的表示格式Internet现在使用的IP协议是IPv4(第四版),它使用32位二进制数表示一个IP地址,在进行程序设计时一般用长整型。IP地址的不同表示法见表8-1。这样互联网中最多只能有255个网络。该方案中用IP地址高位字节的若干位来表示不同类型的网络,以适应大型、中型、小型网络对IP地址的需求。......
2023-11-20
“自”,最早是“鼻子”的意思。后来这个字多用来表示指“自己”,即“我”,因为人们作自我介绍时,常常用食指指着自己鼻子的部位。同时,专门表示鼻子的字,则是在“自”字下加个“畀”表读音,写成“鼻”。为了说明中国社会对妇女的传统看法,我们要介绍一组为数不多的以“帚”字为中心的汉字。“帚”的古文字写作,是扫帚的形状,是放置扫帚的支架。后来加一个“手(扌)”字成为“掃(扫)”,指用扫帚扫地的动作,动词。......
2024-01-26
相关推荐