首页 理论教育数字媒体艺术与传统艺术的融合研究:数字存储与压缩技术

数字媒体艺术与传统艺术的融合研究:数字存储与压缩技术

【摘要】:数字信息尤其是数字化视音频信息所产生的海量数据给数字媒体数据的存储、管理、传输和通信带来了相当的困难,从而使数字存储和压缩编码技术成为重要的数字媒体研究领域。(一)数字存储技术存储器能在一定条件下“记住”数字信息。高速的SCSI存储技术陆续成为市场的主流,也使SCSI技术牢牢地占据了随机存储市场。高可靠性的大型存储系统通常把SCSI技术与其他技术结合来实现故障自恢复,提高安全性,达到系统不间断工作的目的。

随着数字媒体的普及应用,以数字方式存储信息的方式正在迅速取代传统的信息存储方式。数字信息尤其是数字化视音频信息所产生的海量数据给数字媒体数据的存储、管理、传输和通信带来了相当的困难,从而使数字存储和压缩编码技术成为重要的数字媒体研究领域。

(一)数字存储技术

存储器能在一定条件下“记住”数字信息。被记忆的材料可以是操作代码和数据文件。理想的存储子系统能优化信息密集度,将重要的材料保留在不易挥发的介质里,容易编程和再编程,能够快速读出,应用的性价比高。

随着数字媒体应用的日益普及,人们对计算速度、性能及数据存储的要求也更高。对于数字媒体应用来说,视频对象的数据一般都非常大,具有并发性和实时性,对它们的检索也有专门要求。所以,既要考虑存储介质,又要考虑存储策略。以硬盘为标志的大容量数据存储技术发明至今已有几十年了,其间虽没有经历像CPU那样飞速的发展,但在控制技术、接口标准、机械结构等方面也进行了一系列重大改进,使存储容量、传输速度等性能指标完全达到了多媒体信息存储的要求。尤其是近年来,以蓝光光盘为代表的新型存储技术不断发展并得到广泛应用,进一步促进了数字媒体技术及其应用的发展。

在存储介质发展的同时,存储数字媒体资源的技术手段也发生了很大变化。下面以数字视频的存储为例,围绕六种常用数字存储技术的典型应用进行分析。

1.SCSI技术

SCSI的发展经过三个阶段。SCSI协议的第一版本仅规定了5 MB/s的传输速度的总线类型、接口定义、电缆规格等标准。第二版本做了较大修改,SCSI-2协议规定了16位数据带宽。高速的SCSI存储技术陆续成为市场的主流,也使SCSI技术牢牢地占据了随机存储市场。SCSI-3协议增加了能满足特殊设备协议所需要的命令集,使它既能适应传统的并行传输设备,又能适应最新出现的一些串行设备的通信需要,如光纤通道协议、串行存储协议、串行总线协议等。

由于SCSI技术兼容性好,市场需求大,其技术不断翻新。现在已从5MB/s传输速度的SCSI-1发展到LVD的160 MB/s,近期320 MB/s的SCSI也已投入使用。SCSI技术目前已被广泛应用于非线性编辑、字幕机等制作设备。早期的硬盘播出设备采用该技术构建视音频服务器,但因其可靠性等原因而被新技术取代。高可靠性的大型存储系统通常把SCSI技术与其他技术结合来实现故障自恢复,提高安全性,达到系统不间断工作的目的。

2.网络存储技术

网络存储技术是近年高速发展的技术,具有安全性高、动态扩展性强的特点,许多基于工业标准的网络存储方案已经得到广泛应用。目前在数字媒体领域应用最多的是局域网存储,理论上带宽可达1 GB/s,实测带宽可在700 MB/s左右;其次是光纤通道技术,理论上在全双工的情况下,带宽可达2 GB/s,单通道达1 GB/s,实测带宽可在720 MB/s左右。前者是基于低价位的分布式网络存储方案,后者主要架构采用专用存储,并逐渐向中低市场发展。英特尔公司推出的InfiniBand是基于IA-64架构的核心存储技术,第一阶段是取代PC,带宽目标是2.5 GB/s;第二阶段达到Cluster应用,带宽目标是30 GB/s.

网络存储技术近年在视频领域发展迅猛,无论是从管理、制作还是播出都得到广泛应用。但是在目前的技术条件下,形成大型电视台的制播一体网,实现全台媒体资产的中心存储和统一管理,还有不少的技术难点需要克服,特别是网络存储技术的带宽问题。

3.RAID技术

RAID是一种由多块廉价磁盘构成的冗余阵列。虽然RAID包含多块磁盘,但是在操作系统下其是作为一个独立的大型存储设备出现。RAID技术可分为几种不同的等级,可以分别提供不同的速度、安全性和性价比。

RAID0是最简单的一种形式。RAID0可以把多块硬盘连接在一起形成一个容量更大的存储设备。但由于RAID0没有冗余或错误修复能力,其安全性大大降低。RAID1和RAID0截然不同,其技术重点全部放在如何能够在不影响性能的情况下最大限度地保证系统的可靠性和数据可修复性上。RAID1又被称为磁盘镜像,每一个磁盘都具有一个对应的镜像盘。RAID1是所有RAID等级中实现成本最高的一种,适合用来保存关键性数据。

RAID3是利用一个专门的磁盘存放所有的校验数据,而在剩余的磁盘中创建带区集分散数据的读写操作。RAID3 不但可以像RAID1那样提供容错功能,而且整体开销从RAID1的50%下降为25% (RAID3+1)。随着所使用磁盘数量的增多,额外成本开销会越来越小。在不同情况下,RAID3读写操作的复杂程度也不相同。最简单的情况就是从一个完好的RAID3系统中读取数据。这时,只需要在数据存储盘中找到相应的数据块进行读取操作即可,不会增加额外的系统开销。

当向RAID3写入数据时,情况会变得复杂一些。即使只是向一个磁盘写入一个数据块,必须计算与该数据块同处一个带区的所有数据块的校验值,并将新值重新写入校验块中。由此可以看出,一个写入操作事实上包含了数据读取(读取带区中的关联数据块)、校验值计算、数据块写入和校验块写入四个过程,系统开销大大增加。

我们可以通过适当设置带区的大小使RAID系统得到简化。如果某个写入操作的长度恰好等于一个完整带区的大小(全带区写入),那么就不必再读取带区中的关联数据块计算校验值。只需要计算整个带区的校验值,然后直接把数据和校验信息写入数据盘和校验盘即可。当硬盘出现故障时,RAID系统在降级模式下运行,虽然具有容错能力,但是系统性能会受到影响。当一块磁盘失效时,该磁盘上的所有数据必须使用校验信息重新建立。如果是从好盘中读取数据块,不会有任何变化。但是,如果所要读取的数据块正好位于已经损坏的磁盘,则必须同时读取同一带区中的其他所有数据块,并根据校验值重建丟失的数据。

与RAID3不同,RAID5是将校验数据平均分配到每一个磁盘上,各块硬盘分别独立进行条带化分割,相同的条带区进行奇偶校验(异或运算),这样就可以确保任何对校验块进行的读写操作都会在所有的RAID磁盘中进行均衡。因此,RAID5具有良好的随机读性能,因为在规定的传输块大小范围内的数据只需访问单个数据驱动器,也克服了RAID3单个冗余盘的局限性。RAID5的主要缺点是写数据时处理的环节比较多,降低了随机写功能。应当指出,由于IDE设备扩展性和IDE设备支持热插拔的技术限制,IDE设备的RAID应用尚不够广泛。在数字视听制作领域,使用RAID技术最多的是视音频服务器和非线性编辑硬盘塔。其他存储设备也被广泛应用,但不如上述设备更加引人注目。

4.SAN技术

SAN是存储技术进入网络时代的产物。它一方面能为网络应用系统提供丰富、快速和简便的存储资源;另一方面又能对网上的存储资源进行集中统一的管理,成为当今理想的存储管理和应用模式。它既可以作为电视台业务管理的结构,也可以作为视音频播出服务器的网络化构架。

5.NAS技术

NAS是目前发展最快的数据存储设备之一。在典型的网络架构中,数据成为网络的中心,NAS设备是直接连接在网络上的。它具有如下特点:NAS设备是作为单独的文件服务器存在的;网络中所有设备的大多数据均存储在NAS设备上;将NAS设备连接到网络中非常方便,如通过设置简单的IP地址等,就可以即插即用地使用NAS设备;NAS设备可以支持不同的操作系统平台,同时提供了RAID硬盘、冗余电源和风扇冗余控制器,可保证长时间工作。该技术在数字视频领域用于中心在线存储、网络硬盘服务器和网络非线性编辑等。

6.数据流磁带技术

(1)LTO技术。LTO即线性磁带开放协议,是由HP、IBM和Seagate三家厂商于1997年底联合制定的。它是开放式的技术,三家厂商将生产许可证开放给存储介质和磁带机厂商,使不同厂家的产品兼容。开放性带来更多的创新,兼容已有设备,降低成本和价格,使用户受益。LTO结合了线性多通道、双向磁带格式、硬件数据压缩、优化的磁道存储和高效纠错技术,大大提高了磁带的性能。目前,LTO支持Ultrium(高速开放磁带格式)和Accelis(快速访问开放磁带格式)。Ultrium格式具有高可靠性、大容量的特点。特别是能单独操作,也可以在自动环境中使用。Accelis 则侧重于快速数据存储。它在磁带盒中装有双轨磁带存储器用于加快读写速度。两种格式使用同样的磁头、介质磁道面、通道和服务技术,并共享许多代码。两种格式相较而言,大部分用户更强调存储容量,因而Ultrium技术更引人注目。

(2)DAT(数字音频磁带)技术。该技术最早由HP和Sony开发。它采用螺旋扫描技术,早期主要用于数字音频存储,后来经过改进,用于信息存储领域,而且种种迹象表明,DAT的优势还将继续保持。DAT技术之所以大受欢迎,一个重要的原因是高性价比和高可靠性。另外,该技术全世界都在采用,因此世界范围内都可得到该产品的持续供货和良好的售后服务。

(3)DLT(数字线性磁带)技术。该技术最早于1985年由DEC公司开发,它主要应用于VAX机。当时,它是高性能、高价格,仅应用于很少领域,经改进后,又重新成为存储领域的热门技术。目前,磁带驱动器容量为10~35GB,采用硬件压缩技术,容量可提高一倍。但DLT技术也存在一定的劣势。驱动器和磁介质价格高,主系统和网络之间带宽窄,非标准的外形设计使内部受到很大限制,目前只被少数需要高性能备份的用户采用。

上述各种数据流磁带机均称可将数据无损压缩一倍或一倍以上。但是在数字视听媒体领域,大部分的数字媒体采用了MPEG-1、MPEG-2和MPEG-4压缩,当把这些数据保存到磁带机上时,数据不能再压缩。如果再次用磁带机的硬件压缩,不但不能压缩数据,而且会增加容量。在考虑数据流磁带库容量时,如果存储的是MPEG或JPEG文件,不能按硬件压缩能力设计容量。

除了上述几种存储技术,光存储技术、Cluster存储、IP存储和面向对象的网络数据库存储技术也是值得关注的热点,此处不再赘述。实际上,上述技术并不是孤立存在的,而是综合应用这些技术来构造系统。例如,GVG公司和Pinnacle公司视音频服务器的存储阵列服务器采用RAID3技术,存储阵列服务器主、备镜像,视音频服务器与存储阵列服务器采用FC的NAS方式。(www.chuimin.cn)

(二)数字压缩编码技术

1.数字图像的压缩编码

数字图像压缩编码就是采用不同的方法以尽可能小的容量获取和记录数字图像,以解决图像的存储和传输问题。

图像数据之所以可实现压缩,首先是因为原始信号存在着很大的冗余度,数据之间存在着相关性,如相邻像素之间色彩的相关性等。其次是因为在数字媒体系统的应用领域中,人眼是图像信息的接收端。因此,可利用人的视觉对边缘急剧变化不敏感(视觉掩盖效应),以及人眼对图像的亮度信息敏感,对颜色分辨力弱的特点实现高压缩比,而解压后的图像信号仍有较满意的主观质量。根据图像的以上两种特性,发展了数据压缩的两种基本方法。

(1)无损压缩。无损压缩是对文件本身的压缩,原理和其他数据文件的压缩一样,是对文件的数据存储方式进行优化,采用某种算法表示重复的数据信息,文件可以完全还原,不会影响文件内容,对于数字图像来说,也就是不会使图像细节有任何损失。由于无损压缩只是对数据本身进行优化,所以压缩比有限。常用的无损压缩编码算法有哈夫曼编码、算术编码、行程编码等。

(2)有损压缩。有损压缩是对图像本身的改变。图像色彩用HSB色系表示时有三个要素:亮度(B)、色相(H)和饱和度(S),而人眼对亮度的敏感程度远远高于另外两个要素。也就是说,只要亮度不变,稍微改变色相和饱和度,人们便难以察觉。因为有损压缩不能完全还原原始信息,所以打开压缩过的图片再次存储,损失会累积,图像质量会进一步下降。

常用的有损压缩编码算法有运动补偿预测编码、正交变换编码、子带编码、统计分块编码、分形编码、模型基编码等。

图像压缩的主要参数之一是图像压缩比。图像压缩比的定义可以表示为:

图像数据压缩比=压缩后的图像数据量/压缩前的图像数据量

2.数字视频的压缩编码

数字化后的视频与音频信号具有庞大的信息量,还难以直接应用在非线性编辑的实时处理工作中,因此数字化后的视频与音频信号通常需要经过编码压缩。

根据ITU-601标准,数字视频的数据码率(每秒图像的数据量)是相当大的,如果每一帧按720×576的大小进行采样,以4∶2∶2的格式、8 bit量化进行计算,那么数据码率高达216 MB/s,无论是对网络的数据传输,还是对存储介质的数据存储,都构成了巨大的压力。因此,只有在保持信号质量的前提下,设法降低码率,才能使标准得到应用。这种降低码率的过程称为压缩编码,也称为信源压缩编码。

信源之所以可以压缩是因为视频图像信息内各样值之间存在着大量的规律性,也称为相关性。这种相关性可分为三种类型,即空间相关性、时间相关性和频率相关性,这些相关性决定了视频图像信息内存在大量的冗余信息,而正是由于这些冗余信息的存在使压缩成为可能。例如,由于图像是以块和轮廓组成的,在同一帧内或相邻帧之间存在着大量相同的块信息内容(空间相关性);在传输的前一个样值或前一帧中也包含后一个样值或后一帧中存在着的大量的相关性样值内容(时间相关性)。另外,图像的相关性不仅存在于时间域或空间域中,也存在于其他域(如频率域)中,而且这种相关性与图像的复杂程度无关。因此,人们总是设法利用这些不同的相关性,设计出各种不同的压缩算法,以求得从不同角度(域),获得较彻底地去除图像信号冗余代码的方法,使各代码样值独立,降低信息码率。还可以采用一些特殊的编码方法,使平均比特数降低,从而进一步降低信息码率。也可以利用特殊方法进一步去除人眼对视频图像中不能辨别的多余信息,如将视频图像的亮度与色度分别处理,利用人眼对色度的不敏感,进一步压缩色度所占的数据量。

编码只是把采样量化后的样值按一定的计算规律表示为数值,并不具备压缩功能,而压缩编码是采用不同的压缩算法并使结果具有较高熵值的编码方式。不同算法的压缩串也不同,但都应本着保证质量的原则。在实际应用中往往是采用多种不同算法的综合压缩编码方式,反复压缩以取得较高的压缩率。从视频图像压缩后的质量角度看,压缩方法基本可分成无损压缩和有损压缩两类。在无损压缩中,当数据被压缩之后再进行解压,得到的重现图像与原始图像基本相同。但是,对于数字视频来说,其压缩率通常很小,并不实用。在有损压缩中,有较高的压缩比,虽然解压后得到的重现图像相对于原始图像质量降低了,但引起的微小误差不足以使人眼察觉。因此,有损压缩是视频处理中更有实用价值的方式。

最常用的压缩编码技术是国际标准化组织推荐的JPEG和MPEG。

联合图像专家组(joint photographic experts group,JPEG)标准草案于1990年通过。它是一种针对静止的连续色调的图像压缩方法,属于帧内压缩(只在本帧范围内去除冗余量),是用于静态图像压缩的标准。它可按大约20∶1的比率压缩图像,而不会导致太大图像质量和彩色数据的误差,它的压缩和解压是对称的,这样压缩和解压可以使用相同的硬件或软件,而且压缩和解压时间大致相同。

活动图像专家组(moving picture experts group,MPEG)于1991年成为国际标准。它是一种针对活动的连续色调的视频图像压缩方法,采用帧内与帧间压缩(在前、后帧之间去除由空间、时间和频率相关性产生的冗余量)相结合的方式。帧间编辑采用三种方式,有I帧、P帧和B帧。I帧就是参考帧,作为其他帧的基准;P帧是预测帧,它是根据当前帧的变化预测出的帧;B帧是双向预测帧,它根据前后的I帧和P帧双向预测而产生。MPEG编码按不同的用途可划分为MPEG-1、MPEG-2和MPEG-4,它们有不同的图像质量和压缩比,压缩过程也略有差异。

MPEG-1能将图像和伴音的总码率压缩到1.5 MB/s,应用于对图像质量要求不太高的VCD领域;MPEG-2是针对能提供广播质量要求的编码标准,应用于DVD、高清晰电视等领域;MPEG-4有较高的压缩比,已经广泛地用于网络视频。MPEG是一种不对称的压缩算法,压缩的计算量比解压缩大得多,所以压缩常用硬件来执行,解压缩则用软件、硬件均可执行。

当前,在非线性编辑中较为常用的码率压缩方式有JPEG、Motion-JPEG、DV(包括DV-CAM和DVCPRO)及MPEG-2子集(MPEG-2MP@ ML、MPEG-24∶2:2Prfile@ ML)等压缩方式,都对应着适用的压缩硬件卡和软件系统。早期的非线性编辑系统绝大多数都采用Motion-JPEG码率压缩方式,因为Motion-JPEG为帧内压缩,通过实时帧内编码过程单独地压缩每一帧,符合视频编辑逐帧进行的要求。目前,也有许多系统采用DV压缩方式。但从发展的趋势看,采用MPEG-2子集压缩标准的非线性编辑系统将是最受欢迎的编辑平台和操作方式,因为MPEG-2子集标准有较多的优点。

MPEG-2标准提供了三种帧格式,它们分别为I、P和B格式。其中,P和B帧采用了帧间运动补偿,因而压缩效率远远高于I帧。B帧的压缩效率又高于P帧。因此,采用IPB帧格式的MPEG-2码流才能充分发挥出该标准的编码效率和优势。在相同码率的情况下,IPB格式码流的峰值信噪比(PSNR)一般要比M-JPEG或只采用I帧的MPEG-2码流高3~5 dB。如果以相同的视频质量来说,IPB格式的码流所需存储空间一般只有M-JPEG或只采用I帧的MPEG-2码流的1/3大小。

从媒体存储和管理的角度看,管理人员要对数据库中的媒体资料进行查询、调用、编辑修改,以及在网络中各个工作站之间进行媒体资源共享,并对制作后的媒体资料进行再调用操作。这一切操作应做到快捷、简便和有效。这就要求服务器中录入的媒体数据应尽可能小和单一。有些MPEG-2视频服务器和硬件的编码或非编卡采用MPEG-2的元素流格式,这就需要每一段媒体资料都有至少三个文件相对应,即视频码流文件、音频码流文件和数据库文件。这给数据库的管理方面造成了困难。另外,由于节目流中有时间戳,为传输和编辑后的视音频同步带来了很大的方便。因此,采用IPB帧格式的MPEG-2节目流具有高质量、低码率、通用性等优点,是媒体资料存储和管理的理想格式,正在成为专业视频制作、传输通用的压缩标准。

3.数字音频的压缩编码

在数字媒体制作领域,同样要对数字音频采取压缩处理,以降低数据码率。音频数据压缩的方案有三方面的考虑:一是降低采样频率;二是降低量化位数;三是去除音频编码中的冗余信息。综合考虑数字信号采样的要求,以及音频信号的带宽因素,人们一般将音频采样频率确定为最低44.1 kHz,用以确保声音的高质量还原。

数字音频的压缩可以从量化方面入手,减少每位样本所需要的量化位数,这种量化位数的降低应建立在确保音频质量的基础上,过低的量化位数会导致信息的损失,降低音频质量,更多的时候需要去除音频编码中的冗余信息。数字音频的压缩可以参考两个心理声学模型,即绝对听阈和掩蔽效应,以此来确定哪些成分在音频信号内可能是冗余的。由于绝对听阈的存在,人耳对频域中绝对听阈曲线以下部分的声音无法察觉,因此不必记录或传输。又因为掩蔽效应的存在,被强音掩蔽了的弱音也无法被人耳察觉,因此同样不必记录或传输。另外,可以将音频信号中那些对人耳较不敏感的频率段用较大的量化步长量化,以便舍去一些次要信息,对人耳听觉较敏感的频段则设立较小的量化步长,使用较多的码位来传送,以确保必要的声音信息。这就是音频压缩的基本方法。

和视频信号相比,由于音频信号结构信息缺乏更多的相关性,数字音频的压缩较为困难,更多的是利用了人耳的音频掩盖特性进行数字音频压缩。例如,MPEG音频压缩的基本方法是将音频频域划分成32个子带,把音频信号样本变换到频域中的32个对应的子带内,由心理声学模型控制单元,根据阈值特性和掩蔽特性所形成的一个控制对照表,控制频域中各个子带内分量的量化步长,从而保留主要信号而舍去对听觉实际效果影响很小的成分,达到声音压缩的目的。

根据脉冲编码方式,数字音频的压缩编码可以采用线性脉冲编码调制(PCM)、差分脉冲编码调制(DPCM)和自适应差分脉冲编码调制(ADPCM)等方式。这些编码方式都有各自的优缺点,可用于不同的情况。在实际应用中,音频压缩有许多格式。WAV格式的音频文件是通常的声音存储方式,它可以在Windows的媒体播放器中播放,是一种通用的声音文件格式;MIDI格式的音频文件存储的不是声音的波形信号,而是一系列演奏各种乐器合成音效的计算机指令,类似乐谱,需要硬件中的MIDI处理电路转换为波形信号后,才能在音频设备中播出;MP3格式的音频文件是利用MPEG Audio Layer 3的技术,将声音用1∶10或1∶12的压缩比率压缩为一个较小的音频文件。另外,计算机处理音频信号,既可以是双声道立体声,也可以是单声道,这要根据最终的需要加以决定。

数字压缩编码技术是实现数字媒体编辑和制作的基础。当前的数字媒体编辑系统中核心的部分就是视频与音频的压缩,以及解压缩硬件和软件子系统,它们在非线性编辑的过程中自始至终承担着对视频与音频信号的压缩与解压缩的任务,以达到令人满意的、实时处理的视频画面和听觉效果。