首页 理论教育解读音频听觉频带与数字编码实现高效率压缩

解读音频听觉频带与数字编码实现高效率压缩

【摘要】:对于高于20 k Hz和低于20 Hz的声音信号,不论声压级多高,一般人都不会听到,即人的听觉频带为20 Hz~20 k Hz,在此频率范围内的声音称为“可闻声”。此外,在音频信号数字编码技术中,还可利用人类听觉系统的掩蔽效应实现高效率的压缩编码。

在现代通信技术中,音频信息主要是指由自然界中各种音源发出的可闻声和由计算机通过专门设备合成的语音或音乐。按表示媒体的不同,此类声音主要有三类,即语音、音乐声和效果声等。音频信号是随时间变化的连续媒体,对音频信号的处理要求有比较强的时序性,即较小的延时和时延抖动。对音频信号的处理涉及音频信号的获取、编解码、传输、重建与播放、语音的识别与理解、语音与音乐的合成等内容。

1.听觉特性与音频信号

(1)人的听觉特性

在音频业务中,通信系统的信宿是人耳,传输的信息最终要由人来收听,因此人的听觉特性对音频信息的描述起着至关重要的作用。人类对自身听觉特性的描述一般是通过对大量人群的主观测试,并加以总结分析而得出的某种统计规律。在通信系统中,人对声音强弱和声音频率的感觉、人类听觉的频响特性以及掩蔽效应是影响音频通信系统特性的关键因素。

1)人对声音强弱的感觉

人对声音强弱的感觉表现为音量的大小,当声音信号的强度按指数规律增长时,人会大体上感到声音在均匀地增强,即将声音声强取对数后,才与人对声音的强弱感相对应。根据人类听觉的这一特点,通常用声强值或声压有效值的对数来表示声音的强弱,称为声强级LI声压级LP,单位为分贝。

2)人对声音频率的感觉

人对声音频率的感觉表现为音调的高低,且当声音的频率按指数规律上升时,音调的感觉线性升高。这意味着只有对声音信号的频率取对数,才会与人的音高感觉呈线性关系。为了适应人类听觉的音高感规律,在声学和音乐当中表示频率的坐标经常采用对数刻度。音乐里为了使音阶的排列听起来音高变化是均匀的,音阶的划分是在频率的对数刻度上取等分得到的。

3)人类听觉的频响特性

人类听觉对声音频率的感觉不仅表现为音调的高低,而且在声音强度相同条件下声音主观感觉的强弱也是不同的,即人类听觉的频率响应不是平坦的。此外,人的听觉频响还随声压级的变化而变化。人类听觉频响的特点是:当声强处于人的闻阈与痛阈之间时,声压级越高,听觉频响越平直;随声音声压级的降低,听觉频响变坏,低频响应下降明显。对于高于20 k Hz和低于20 Hz的声音信号,不论声压级多高,一般人都不会听到,即人的听觉频带为20 Hz~20 k Hz,在此频率范围内的声音称为“可闻声”。高于20 k Hz的声音称为“超声”,低于20 Hz的声音称为“次声”。不论声压级高低,人对3~5 k Hz频率的声音最敏感。

4)人类听觉的掩蔽效应

在人类听觉系统中的另一个现象是一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,即所谓的“掩蔽效应”。掩蔽效应常在电声系统中被加以利用,使有用声音信号掩蔽掉那些不需要的声音信号,并根据有用信号的强度来规定允许的最大噪声强度。此外,在音频信号数字编码技术中,还可利用人类听觉系统的掩蔽效应实现高效率的压缩编码。

(2)音频信号特性

对于不同类型的发声体来说,其声音信号的频谱分布各不相同。一般人讲话声音的主要能量分布较窄,以频带下降25 d B计大概为100 Hz~5 k Hz,因此在电话通信中每一话路的频带一般限制在300 Hz~3.4 k Hz,即可将语声信号中的大部分能量发送出去,同时保持一定的可懂度和声色的平衡。相对于语音频谱,歌唱声的频谱要宽得多,一般男低音可唱到比中央C低十三度的E音,其基频为82.407 Hz,而女高音可唱到比中央C 高两个八度的C 音或更高,其基频为1 046.5 Hz,它的第十次谐波已经超过10 k Hz。与人的发声器官相比,各种乐器发声的频谱范围则要宽得多,从完美传送和记录音乐的角度,电声设备的频带下限一般要到20 Hz以下,而其频带上限一般要到20 k Hz以上。对于通信系统来讲,通常将音频信息的频率范围限制在可闻声的频率范围内加以传输。

实际声音信号的强度在一个范围内随时随刻发生着改变,一个声音信号的动态范围是指它的最大声强与最小声强之差,并用分贝表示。当用有效声压级表示时,一般语音信号大概在20~40分贝的动态范围,交响乐、戏剧等声音的动态范围可高达60~80分贝。当按峰值声压级表示时,有些交响乐的动态范围可达100至更高分贝。

2.音频信号的数字化与编码

声音信息通过拾音器的采集形成的是模拟音频信号,它在时间上是连续的,而数字音频则需对应一个时间离散的数字序列。音频信息的数字化包括音频信息在时间上的离散化和音频信息电平值的离散化。对音频信号而言,采样就是使音频信号在时间上离散化。现代通信技术中通常选用的音频采样频率有8 k Hz、11.025 k Hz、16 k Hz、22.05 k Hz、32 k Hz、44.1 k Hz和48 k Hz等。

经抽样后的音频信号只是一系列时间上的离散样值,每样值的取值仍是连续的,其数字化表示须将其转换为有限个离散值,该过程称为量化。数字系统中被量化后的音频信号其每个量化电平会被赋予一个二进制码字,称为编码。音频信号通常采用8~20 bit量化编码。

音频信号数字化后的数据速率较高,如双声道立体声信号,当采样频率为11.025 k Hz,8 bit量化时,其数据速率达176.4 kbit/s,其一分钟的信号存储容量需要1.323 MB。而数字化激光唱盘的CD-DA 红皮书标准是采用44.1 k Hz采样频率,16 bit量化,双声道一分钟其存储容量需10.584 MB。因此为了提高信道利用率和在有限的信道容量下传输更多的信息,必须对音频数据进行压缩。一般来说,音频信号的压缩编码主要有以下几种主要类型。

(1)波形编码

波形编码是在信号采样和量化过程中考虑到人的听觉特性,使编码信号既尽可能与原输入信号相匹配,又能适应人的应用要求的一种编码方法,如全频带编码(包括脉冲编码调制PCM,瞬时、准瞬时压扩PCM,自适应差分ADPCM 等),子带编码(包括自适应变换编码ATC、心理学模型等),矢量量化。波形编码的特点是在高码率条件下可获得高质量的音频信号,适合于高保真度语音和音乐信号的压缩。

(2)参数编码

参数编码是一种将音频信号以某种模型加以表示,通过抽取恰当的模型参数和参考激励信号参数实现编码过程的一类编码方法;声音重放时,再根据这些参数重建即可,这就是通常讲的声码器。用此类方法构成声码器的有线性预测声码器、通道声码器、共振峰声码器等。参数编码压缩比很高,但计算量大,且不适合高保真度要求的场合。

(3)混合编码

混合编码是吸取了波形编码和参数编码的优点,进行综合处理的一类编码方法,如多脉冲线性预测、矢量和激励线性预测、码本激励线性预测、短延时码本激励线性预测编码、长时延线性预测规则码激励等。

3.音频通信业务及流程

在音频通信业务中,最主要的两种业务形式是双向语音通信业务和音频广播业务。

(1)普通电话业务

普通电话业务是发明最早和应用最为普及的一种通信服务,它在基于电路交换原理的网络支持下提供人们最基本的点到点双向语音通信功能。提供普通电话业务的通信系统主要由用户电话机、用户接入线、中继线、交换机及交换网络构成。为了实现电话网络中任意两个用户间的语音信息交换,电话系统需要提供语音信息的采集、处理、传输、交换和语音重建,还要完成用户状态检测、被叫用户的寻址、发出提示音及振铃等功能。

普通电话业务的基本通信流程如下:主叫用户摘机,主叫侧用户交换机检测到用户摘机后发出提示音提示用户拨号;用户输入被叫号码,交换机及交换网络接收到被叫号码后根据号码规则寻找被叫地址,完成路由选择;被叫侧用户交换机向被叫用户电话机发出振铃音,提示被叫用户摘机;一旦被叫用户摘机,电话系统就为通信的双方建立起一条双向通信线路开始计费,用户可以开始通话。通话期间,用户电话机通过话筒采集用户语音,将声音转换为模拟语音电信号,通过用户线接入电话系统;通常现代电话网在用户交换机上会将模拟语音信号数字化,通过数字网络传送至通话另一方的用户交换机上,经过数模转换还原成模拟语音信号,再通过用户接入线送至通话另一侧的电话机上由其听筒完成语音电信号到声音信号的转换,供用户接听。数字化语音信号时,语音信号带宽被限制在300~3 400 Hz,采样频率为8 k Hz,每样值8 bits量化,因此每话路的数据速率为64 kbit/s。通话结束时,通话任意一方挂机,用户交换机检测到用户挂机,则通过信令系统完成资源释放,停止计费和结束通信进程。

通常普通电话业务是由传统电信部门来运营和管理的。从电信运营部门的角度,根据通信距离和覆盖范围,电话业务可分为市话业务、国内长途业务和国际长途业务。基于这样一个电话交换网络,除可以提供基本的点到点语音通信外,还可为用户提供来电显示、三方通话、转移呼叫、会议电话等增值功能;此外,还可以提供传真、互联网拨号窄带接入等功能。

(2)卫星电话业务

卫星通信系统是由空间部分的通信卫星和地面部分的通信地面站两大部分构成的。在这一系统中,通信卫星实际上是一个位于空中的通信中继站。通信卫星工作的基本原理是:从发端地面站发出无线电信号,该信号被卫星通信天线接收后在其转发器中进行放大、变频和功率放大,然后再由卫星的通信天线把放大后的无线电波重新发向接收端地面站,从而实现两个地面站或多个地面站的远距离通信。

卫星电话是一种基于卫星中继通信系统实现双向语音信息交换的通信业务,主要用来填补现有其他通信基础设施(有线通信、无线通信)无法覆盖区域的语音通信需求。例如,用户要通过卫星与大洋中航行的用户通话,先要通过电话局把用户线路与卫星通信系统中的本地地面站连通,地面站把通话信号发射到卫星,卫星接收到这个信号后通过功率放大器,将信号放大再转发到在海洋中航行器载有的卫星信号收发站,收发站把通话信号取出送给用户。在卫星电话业务中,不通过地面站可与卫星实现直接通信的用户需要使用专用的卫星通信终端完成通话功能。目前,卫星通信覆盖范围的特性尚无法被其他通信方式所替代。

(3)IP电话业务

IP电话业务是一种基于IP网络实现双向语音信息交换的通信服务。以语音通信为目的而建立的PSTN 电话网采用电路交换技术,可以充分保证通话质量,但通话期间始终占用固定带宽,以通话的距离和时长作为计费依据。以数据通信为目的建立起来的IP网络采用分组交换技术,所有业务共享线路,大大提高了网络带宽的利用率,主要以流量作为计费依据。但由于传统数据网络中数据包的传输是非实时的,所以IP网络通常无法保证语音传输的质量。然而人们一直在寻求利用带宽利用率更高的IP网络进行语音传输的方法,因此IP电话应运而生。由于IP网络中采用“存储—转发”的方式传递数据包,不独占电路,并且IP电话对语音信号进行了压缩编码处理,占用带宽仅为8~10 kbit/s,再加上分组交换的计费方式与距离的远近无关,大大节省了长途通信费用。此外,随着IP网络通信速率的不断提高,以及各种服务质量保障措施的引入,IP电话的服务质量已逐渐接近普通电话的服务质量。

(4)移动电话业务

移动电话业务是一种经过由基站子系统和移动交换子系统等组成的蜂窝移动通信网为用户提供的点到点可移动状态下的双向语音信息交换服务,其主要特征是终端的移动性,并具有越区切换和跨网自动漫游功能。移动电话用户利用移动通信终端,既可实现与其他移动用户,又可实现与其他普通固定电话用户之间的语音通信。移动电话系统由无线收发信基站、电话交换网络和移动通信终端组成。在蜂窝移动通信系统中,把信号覆盖区域分为一个个的小区,通常是六角蜂窝状。每个小区基站均通过有线通信线路与电话交换中心连接,形成一个蜂窝移动电话网。移动电话网还与市内公用电话网以及国内、国际长途电话网相连,使移动电话用户不仅可以与网内的移动电话用户通电话,还可以与更大范围内的移动用户和固定用户通电话。移动通信终端通常有车载终端、便携机和手持机三种类型。

蜂窝移动电话与其他语音通信业务相比的最大特点是支持用户在高速移动状态下的语音信息交换,并且频率资源可在不同区域重复使用。在用户使用移动电话进行通信时,每个用户都要占用一个信道,同时通话的人多了,有限的信道就可能不够使用,于是便会出现通信阻塞的现象。采用蜂窝结构可使用同一组频率在若干个相隔一定距离的小区重复使用,从而达到节省频率资源的目的。经过适当安排,不同小区群的相同编号小区的频道组是可以被重复使用的。尽管这些小区基站所使用的无线电频率相同,但由于它们相隔较远,而电波作用范围有限,彼此不会造成干扰,这样一组频率就可被重复使用。

(5)无线对讲与集群通信

无线电对讲机是最早被人类使用的无线移动通信设备之一,它是一种无线的可在移动中使用的一点对多点进行语音通信的终端设备,可使许多人能同时彼此交流,许多人能同时听到同一个人说话,但是在同一时刻只能有一个人讲话。这种通信方式和其他通信方式的不同之处是:即时沟通、一呼百应、无须其他通信基础设施支持,因而经济实用、运营成本低、不耗费通话费用,同时还具有组呼通播、系统呼叫、机密呼叫等功能。在处理紧急突发事件、进行调度指挥时,其作用是其他通信工具所不能替代的。

集群通信系统是一种专用调度通信系统,通常由基站、中央控制器、调度台和移动终端四部分组成。它是从一对一对讲机的形式、同频单工组网型式、异频单(双)工组网型式到单信道一呼百应以及进一步带选呼的系统发展到多信道自动拨号系统的。而近年来,专用调度系统又向更高层次发展,成为多信道用户共享的调度系统。集群移动通信系统主要用于专业调度通信,而语音通信只是其辅助功能。

(6)模拟与数字音频广播

在音频业务中,除了上面提到的各种双向语音通信业务外,模拟音频广播业务则是出现更早的一类音频业务。模拟音频广播通过将音频信号调制在载频上通过发射台将音频信号广播发射出去,用户通过接收机接收后解调还原成音频播放供用户收听。在音频广播中,信号的调制方式分为调幅与调频两种;而在调幅广播中根据载波频率的不同,又分为短波、中波与长波广播。在广播信号接收质量上,调频广播明显优于调幅广播。

数字音频广播(DAB)是继调幅和调频广播之后的新一代音频广播业务,它采用数字处理方式进行音频广播,有杜比降噪功能,具有失真小、噪音低、音域定位准的特点,如果用户配备功放、音箱等设备便可享受高保真立体声音乐。DAB广播方式主要有地面广播、卫星广播和地面卫星混合广播三种。数字音频广播系统与模拟调频立体声广播系统相比,具有音质好、频谱利用率高、免受多径传播干扰等优点,具有传送灵活的、多种节目的能力,在任何给定的同样的覆盖范围内,DAB所需的发射机功率比调频发射机功率小。