首页 理论教育数字化编码的过程及应用

数字化编码的过程及应用

【摘要】:模数转换包括采样、保持、量化和编码四个过程。量化是将连续幅度的采样信号转成离散幅度的数字信号。编码是将量化后的信号编码成二进制代码。国标码是计算机内部处理信息时使用的二进制代码,在中华人民共和国国家标准《信息交换用汉字编码字符集—基本集》中作了定义。图像编码分为针对静止图像的编码和针对运动图像的编码。

文化信息中,无论是声音信号还是图像信号以及其他非电量模拟信号,都可以通过传感器件转换为模拟的电量信号,从而可以进一步数字化。模数转换是数字化技术中最基础的一步,它是指把连续的模拟信号转换为信息基本相同的数字信号的过程,如声音信号等。模数转换包括采样、保持、量化和编码四个过程。采样指在离散时刻对模拟信号进行截取,采样速率要满足采样定理。采样输出是断续的窄脉冲,将此瞬时模拟信号保持一段时间供后续处理,称为保持。量化是将连续幅度的采样信号转成离散幅度的数字信号。编码是将量化后的信号编码成二进制代码。不同信息的编码方式方法不同,常用的有字符编码、数字编码、音视频编码等。

汉字不同于英文字符,是象形文字,相对于字母来说,编码比较复杂。在计算机中,汉字的表示分为输入码、交换码、机内码和字形码。输入码用来将汉字输入到计算机中,常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等。国标码是计算机内部处理信息时使用的二进制代码,在中华人民共和国国家标准《信息交换用汉字编码字符集—基本集(GB2312-80)》中作了定义。区位码是国标码的另一种表现形式,把国标GB2312-80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8 836个,其中7 445个汉字和图形字符中的每一个占一个位置后,剩下的1 391个空位保留备用。在计算机内部汉字用机内码,在磁盘上记录汉字代码也使用机内码。输出汉字时都采用字形码,每个汉字都写在同样大小的点阵方块中。

人耳能感觉到的声音的最高频率为20 000Hz,根据采样定理,采样率至少40 000Hz,如CD的采样率为44 100Hz。量化数为2的整数次幂,CD为16位(bit)的采样大小,即2的16次方。数字音频是原声的接近,不能完全还原原声。现有公认高保真的声音编码技术是脉冲调制编码PCM。PCM编码的优点是音质好,缺点是存储空间大,每分钟PCM音频流需10.34M字节存储空间。

文化中的声音包括音乐、语音、风声、雨声、鸟叫声等多种类型。数字音频的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度等方面。语音编码技术有波形编码、参数编码以及混合编码技术,音乐编码技术主要有自适应变换编码(频域编码)、心理声学模型和熵编码等技术。数字音频的性能有比特率,主观/客观的语音质量,计算复杂度,对存储器的要求,延迟,对于通道误码的灵敏度,信号的带宽等方面。

现有语音编码标准包括ITU-T的G.711、G.722、G.723.1、G.729,GSM的HR、FR、EFR,3GPP的AMR-NB、AMR-WB,3GPP2的QCELP8K、QCELP 13K、EVRC、4GV-NB等。音频编码标准有MPEG 1/MPEG 2的layer 1、2、3和MPEG 4 AAC的音频编码,ITU-T的G.722.1、3GPP的AMR-WB+和3GPP 2的4GV-WB等。

WAV为微软公司开发的符合RIFF(Resource Interchange File Format)规范的声音文件格式,用于保存Windows系统的音频。WAV用一个文件头定义音频流的编码参数,优点是有简单的编/解码、普遍的支持以及无损耗存储。

MP3是MPEG-1audio layer 3的简称,所需频宽为112Kbps~128Kbps,压缩率10~12倍,但编码利用人耳存在遮蔽效应,较复杂,可用于互联网上的高质量声音的传输。

WMA是Windows Media Audio编码的文件格式,由微软开发,在64Kbps码率时,WMA可以达到接近CD的音质,支持防复制功能,支持通过Windows Media Rights Manager加入保护,可限制播放时间和播放次数等。WMA支持流技术,即边读边放,可以用于在线广播。

RA是Real Audio格式,支持网络上的媒体播放,可以根据带宽控制播放的码率,在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码及流技术,可实现只在线播放而不提供下载的方式。

图像编码分为针对静止图像的编码和针对运动图像的编码。图像编码方案有预测编码和变换域编码两大类,预测编码有帧内预测和帧间预测,变换域则有离散傅立叶变换、小波变换、沃尔什变换等。图像编码有无损编码和有损编码之分,图像的无损编码标准有TIFF、GIF、RAW、PCX、TGA、PNG、BMP等。国际标准有国际标准化组织ISO和国际电工委员会IEC的静止图像编码标准JPEG、国际电信联盟ITU-T关于可视电话/会议电视的视频编码标准H.261、H.263和ISO/IEC关于运动图像的编码标准MPEG-1、MPEG-2和MPEG-4等。

BMP(Bitmap)是Windows操作系统中的标准图像文件格式,采用位映射存储格式,图像深度可变,通常不压缩。设备无关位图(Device Independent Bitmap)包含原始设备的颜色格式、分辨率调色板,一个由红、绿、蓝(RGB)三个值代表的像素,一个数组压缩标志。(www.chuimin.cn)

GIF(Graphics Interchange Format)是图像互换格式,采用Abraham Lempel、Jacob Ziv与Terry Welch提出的LZW算法,是连续色调的无损压缩格式,压缩率一般在50%左右。GIF图像体积小,相对清晰,适用于图表、按钮等只需少量颜色的图像。

PNG(Portable Network Graphics)是便携式网络图像,采用无损位图图像文件格式。PNG有GIF所没有的特性,如每像素深度达48位的真彩色图像或16位的灰度图像,可为灰度图和真彩图添加α通道,图像可添加γ信息,并使用循环冗余码检错,可在一个文件中存储多幅图像等。

TIFF(Tagged Image File Format)指标签图像文件格式,是一种位图文件格式,基于标记,广泛应用于较高图像质量要求的存储与转换。

JPEG(Joint Photographic Expert Group)由ISO和IEC联合图像专家组制定,是适用于连续色调(包括灰度和彩色)静止图像压缩算法的国际标准。JPEG有4种模式,一种是基于空间预测(DPCM)的无损压缩算法,剩下三种是基于DCT的有损压缩算法。JPEG-2000采用以小波变换为主的多分辨率编码方式,压缩率比JPEG高约30%。另外,JPEG-2000实现了无损压缩,误码鲁棒性好,可以渐进运输,采用了基于感兴趣区压缩方法等。

MPEG-4是MPEG开发的适于极低码率(小于64Kb/s)的音/视频编码标准。MPEG-4除了音/视频编解码,将内容与交互性作为核心。MPEG-4标准定义了一种格式和框架,可以加入新的算法。除了一些压缩工具和算法外,各种各样的多媒体技术如图像分析与合成、计算机视觉、语音合成等也可应用于此编码。

MPEG-7是“多媒体内容描述接口”,为各类多媒体信息提供一个描述符标准集,用于描述各种类型的多媒体信息,与之相应的描述方案可以用于规范多媒体描述符的生成和不同描述符之间的有机联系。描述符与指定的多媒体对象的内容紧密联系,采用提取对象特征的方法为实现基于内容和语义的准确检索提供接口。MPEG-7通过描述定义语言(Description Definition Language,DDL)指定和生成描述方案,目标是支持多种音频和视频的描述,包括自由文本、N维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述将包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。

MPEG-21定义多媒体应用的开放框架,支持用户透明方便地通过异构网络和设备使用多媒体内容的标准,其目的是建立一个交互的多媒体对象,实现多种业务模型,包括对版权和交易的自动管理,对用户隐私的尊重等。

H.261是ITU-T针对可视电话和会议电视、窄带ISDN等要求实时编解码和低延时应用提出的一个编码标准。该标准包含的比特率为64Kb/s的整数倍,对应比特率为64Kb/s~92Mb/s。有帧内模式和帧间模式两种,分别应用于画面切换频繁或剧烈运动的序列图像和缓和运动的图像。H.263针对低比特率视频应用,适合于PSTN网络、无线网络与因特网等环境下的视频传输。

MVC指多视点视频编码(Multiview Video Coding),是H.264中第四个扩展标准。多视点视频是具有立体感和交互操作功能的视频,可广泛用于任意视点视频、三维电视、交融式会议电视、远程医学诊疗、虚拟现实以及视频监视系统等多种多媒体业务。