但是DVD电影的这一特性却使学生很有可能太放松,他们感觉不到来自电影对他们的要求,电影不会要求他们回答问题。DVD电影提供丰富地道的语言输入,包括一些书面上甚少出现的口语语素,是非常好的语言学习资料。......
2023-11-23
语言和文字既是信息、知识、文化的载体,也是文化的组成部分。汉字作为中华民族璀璨文化中独具特色的一项发明,在数千年一脉相传、源远流长的历史中,为记载、继承和传播中华文化建立了不朽的功勋。然而,当20世纪40年代电子计算机问世,并迅速引发席卷全球的信息技术革命,如何对汉字进行编码、存储、输入和输出等一系列关于汉字处理的难题,曾一度成为电脑在中国普及和推广的“拦路虎”。
汉字信息处理主要指以汉字为处理对象的相关技术,包括汉字字符集的确定、编码、字形描述与生成、存储、输入、输出、编辑、排版以及字频统计和汉字属性库构造等等。最早的计算机汉字编码输入始于20世纪50年代,60年代完成了“见字识码”的方案设计和码本。1978年5月,上海推出了一台汉字信息处理实验样机。80年代,在联想汉卡、四通中文电脑打字机之后,中国的汉字编码出现了“万马奔腾”的局面,如五笔字型,郑码、拼音输入法、智能ABC等,各种较规范、易学易用的输入法层出不穷,使汉字能快速输入到计算机中。汉字字形库(或称汉字字型码、汉字发生器编码)存放如汉字的宋体、黑体、楷体等各种点阵或曲线字形信息,通过专门的处理程序把要输出的汉字转换成对应的汉字字形后在显示器、打印机上输出,汉字库中还包含了汉字放大、缩小、斜体、粗体等字体变化的信息。
汉字处理框图如图7-1所示。
图7-1 汉字处理框图
由于计算机只能直接处理和保存以二进制数字形式存在的信息,因此所有字符必须经过编码后才能被计算机处理。
(1)汉字输入码
汉字输入码也称外码,是为了将汉字输入到计算机设计的代码。汉字输入码的种类很多,常见的有如下几类:
1)数字编码:区位码、电报码。
2)音码类:全拼、双拼、微软拼音等。
3)形码类:五笔字型法、郑码输入法等。
4)音形编码:智能ABC、自然码等。
(2)国际码
为了使每个汉字有一个统一的代码,1980年,我国颁布了第一个汉字编码的国家标准:GB2312—1980《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准,其规定用两个字节的十六位二进制数表示一个汉字,用以表示6763个常用汉字和682个其他符号。
在具体介绍国际码之前,先要说一下区位码。汉字区位码是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。
首先,把汉字与符号按照科学的方法排列组成一个有94行,每行有94列的方阵,在此方阵中,每一行称为一个“区”,每一列称为一个“位”,因此,这个方阵实际上组成了一个94×94汉字字符集。其中94个区(区号分别为01到94)、每个区内有94个位(位号分别为01到94),一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的区位码。(www.chuimin.cn)
在汉字的区位码中,高两位为区号,低两位为位号。例如,“中”字是排在54区48位,所以“中”的区位码是5448。
由于计算机内都是以二进制表示,为了与西文字符ACSII(Ameri-can Standard Code for Information Interchange)码兼容,把区位码的区号和位号分别加上十进制数32才构成了国际码(因为ACSII码中,32之前都是不显示字符),所以“中”的国际码就是8680。
国标码又称为GB2312—1980信息交换用汉字编码字符集,共7445个,常用汉字6763个,一级汉字3755,二级汉字3008。
(3)机内码
机内码是汉字在设备或信息处理系统内部最基本的表达形式,每个汉字占两个字节,用两个连续的字节进行编码,每个字节的最高位为1。这是为了与西文字符的编码相区别,因为西文字符ACSII(A-merican Standard Code for Information Interchange)码每个字符占一个字节,但一般只用7位,最高位不用,一般为0。
汉字“中”的国际码(8680)和其机内码的二进制形式如下所示:
国际码 机内码
(0101011001010000)B(1101011011010000)B
在输入汉字时,通过键盘输入的汉字编码,要经代码转换程序转换成汉字机内代码。
(4)字形码
汉字字形码是汉字的输出码,通常有两种表示方式:点阵和矢量表示方式。其中点阵存储的是汉字字形点阵的代码,如16×16、24×24、32×32、48×48等。矢量存储的是描述汉字字形的轮廓特征。
(5)地址码
汉字所有字形码的集合称为汉字库,汉字地址码是每个汉字字形码在汉字字库中所占第一存储单元的地址,地址码和机内码要有简明的对应转换关系,以便根据机内码快速找到其对应的字形码。
虽然GB2312—80《信息交换用汉字编码字符集》基本集能够基本满足一般输入工作需要,但GB2312支持的6763个常用汉字只占我国汉字数量极少的一部分,因此,1995年我国颁布了汉字扩展规范GBK1.0,它收录了21886个符号,分为汉字区和图形符号区,汉字区包括21003个字符。
2000年我国发布的《信息技术信息交换用汉字编码字符集基本集的扩充》(GB18030),是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
但是DVD电影的这一特性却使学生很有可能太放松,他们感觉不到来自电影对他们的要求,电影不会要求他们回答问题。DVD电影提供丰富地道的语言输入,包括一些书面上甚少出现的口语语素,是非常好的语言学习资料。......
2023-11-23
所以,汉语分词成为中文信息处理中重要而又难以解决的问题。多年来,汉语的词切分问题严重地影响了中文信息处理,或者说中文自然语言处理的发展。目前,随着人类社会向数字环境下“智能社会”的发展,自然语言处理在信息处理中的作用越来越重要,中文分词成为文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理中的关键技术和难点。......
2023-11-23
在目前的数字出版服务中,人们主要关注的是疏通出版、消费渠道和丰富数字产品形式。但对数字出版为读者提供语言层面的服务,除了起源于美国的阅读分级服务,几十年来几乎没有新的进展。目前数字出版中的语言服务,有代表性的有以下几种:1)数字出版编辑中的语言服务:文字编辑与校对。3)数字出版面向读者的语言服务:文本难度。......
2023-11-23
此外,通过自然语言理解的研究可以更好地了解人类大脑是如何工作的。5)统计学:给自然语言处理提供基于样本数据来预测统计事件的技术。7)生物学:给自然语言处理提供大脑中人类语言行为机制的理论。......
2023-11-23
从阅读的目的来看,外文阅读可分为以语言学习为目的的阅读、工作需要进行的阅读和享受型阅读。现代汉字是指现代白话文用到的字,包括古今通用的字和白话文专用的字,合起来称“现代汉字”。与现代汉字相对的是只用于文言文中的字,我们称为文言古语用字。到目前为止,汉字生僻字的输入,还一直是困扰文史工......
2023-11-23
数字出版提供词汇抽取服务主要是基于这样一个统计事实,一种成熟的语言,一般词汇量很大,但在人们的日常生活会话和书籍中,常用词占了绝大部分。在现代汉语文章中,2500个常用字的覆盖率达97.97%,3500个常用字的覆盖率达99.48%[4]。如果把一种语言的词汇按词频分段,语言水平高的读者,生词少且趋于低频词段,语言水平较低的读者,生词较多,生词词频段跨度会较大。......
2023-11-23
国内汉语教材一贯重视词汇、语法编排的科学性与系统性,而忽略了课文的生动性、趣味性,对未成年学习者,这就成为一个主要问题。为了写出优秀的对外汉语用教材和儿童等读物,可以利用信息技术工具集中古今中外汉语名作,帮助语言学家扩大视野和优化写作。......
2023-11-23
所以外文数字出版中提供难句抽取服务具有积极的意义。实现外文数字出版中的难句抽取的完全自动化,从理论上说,需要涉及语篇的预处理、难句识别及抽取算法和机器翻译,而这在目前还存在一些困难。其次,除了语料的标注,难句抽取还需要根据高效准确的难句识别和抽取算法,开发相应的难句抽取软件工具。......
2023-11-23
相关推荐