首页 理论教育音频检索:基于内容的特征提取与聚类

音频检索:基于内容的特征提取与聚类

【摘要】:对声音进行数字化处理得到的结果称为音频。对音频,需要通过听觉特征进行检索。音频有别于一般数据,本身是一种正弦波,检索前需要进行预处理,以提取音频特征或文本描述。基于内容的音频检索系统的第一步是先建立数据库对音频数据进行特征提取,将音频数据装入数据库的原始音频库部分,将特征装入特征库部分,通过特征对音频数据聚类,将聚类信息装入聚类参数库部分。

自然界的声音极其广泛,如语音、音乐声、风雨声、动物叫声、机器轰鸣声等。其中,语音和音乐是最常见的声音媒体。对声音进行数字化处理得到的结果称为音频。现有的声音数据库一般只允许用户把有限数目的文本关键字和描述赋予每个声音,而采用关键字进行检索。虽然音频如音乐可以用题名、作者或主题、分类来进行索引,但用户常常会要求用一段音乐旋律来检索乐曲。对音频,基于内容的处理涉及音频信号的分析、自动语音识别等技术。索引可以基于韵律、和音、旋律以及其他的感知或声学特征。声音的一些感知特征有音调、响度、音色、带宽、谐音等,可以对这些特性进行示例和特征值检索,也就是采用一个或多个客观的声学参数,或者输入一个参考的声音,要求系统检索相似或不相似的声音可以承载很大的信息量,是生活和工作中一种不可或缺的信息媒体。声音媒体是除视觉媒体外最重要的媒体,占总信息量的20%左右,语音和音乐是最常见的声音媒体。对声音进行数字化处理得到的结果称为音频。对音频,需要通过听觉特征进行检索。

声音其实是一种正弦波,具有振幅、频率、相位等特性。但由于声音是能感觉到的媒体,因此,声音具有物理和心理两种属性,并且是相互关联的。物理属性与波形有关,包括声强、频率、声波复合、谐波结构等属性。心理属性则与感觉有关,且因人而异,包括强度、音调、音色、音量、和谐等属性。

音频有别于一般数据,本身是一种正弦波,检索前需要进行预处理,以提取音频特征或文本描述。

(1)语音识别。

语音与文字是一一对应的,区别只在于语言不同,文字不同,所以如果把语音识别出来变成文字,就可以借助于常规的信息检索技术进行检索处理,或者进行其他操作,如人机权交互,就是语音识别的初衷。语音识别技术(automatic speech recognition,ASR)是音频处理的重点研究领域。对于基于内容的音频信息检索,首先应提取数据的音频特征,而后对音频特征进行匹配,从而进行音频数据的分类和检索。

语音识别技术已经从实验室走出来成为一种比较实用的技术。IBM的ViaVoice和Lernout & Hauspie的Voice Express是两种比较成功的系统,其中,ViaVoice将成为国内计算机的标准配置。

(2)关键词识别。

关键词识别是指在给定音频数据中查询少量特定的单词或短语。它可以通过对需要的关键词和填充模型进行HMM训练,以使其与每一个单词匹配。相对于大词汇量识别系统,关键词识别系统既精确,计算量又小,而且对实际的语音数据有较大的弹性。对于关键词识别技术,比较典型的测试是SWITCHBOARD集,它收藏了自然生成的电话对话。由于对话大都是关于某一主题的,因此有些研究组正试图自动检测某一对话的主题。来自BBN的研究人员曾综合大词汇量识别与关键词识别技术以解决主题确认问题。

(3)大词汇量语音识别。(www.chuimin.cn)

不同于关键词识别,大词汇量识别将大量的语音数据转换成文本形式。然而,单纯对所有单词建立HMM模型的大词汇量识别有一些缺点:如果单词不在语音词典中,将无法识别;需要建立语言模型,而且要有大量的文本训练集。有鉴于此,一般采用“子单词”方法,将单词分段,而不是对数以千万计的单词HMM模型。这样只需要用到几百个基于音节的子单词模型。将几个子单词和在一起就可构成完整的单词。比如,“right”就可以由3个子单词“R、AY、T”相加而成。另外,针对不同语言的特点,需要研究各单词的出现概率。ASR的一个优点是,大多数需要的音频数据是已知的,故可以离线操作。然而ASR系统的一个很大的缺点在于它的准确率较低。对于特定的领域,即使是最好的连续语音识别系统也只能达到90%左右的准确率。而对现实的任务如电话对话或新闻广播,只能有50%—60%的准确率。

(4)说话者检测。

说话者检测是音频处理的重要领域,可用以进行语音数据的对齐和视音频的聚类。相对于语音识别而言,说话者区别是比较简单而实用的技术。即不管说的是什么,只注意是谁说的。应用说话者识别进行多媒体数据流的分段是一个很有前途的领域。如果分析处理能在毫秒级足够准确的话,就可用来在音频或视频等多媒体数据中检测说话者的改变。学者Wyse开发了一种基于倒频谱差异的方法,该方法比较特征空间中相似区域的差别,以消除同一说话者内部的改变。当此差异大于适当阈值时,即可认定出现了新的说话者或话音有显著变化。此方法可与视频处理方法相结合,迅速有效地从音频与视频流中提取信息。

(5)音频特征与提取。

在进行音频检索之前,首先要提取音频特征。音频有其自身的特点和属性。在音频数据中提取特征有两种方法,一是提取感性特征,如音高、响度;二是计算非感性属性或称物理特性,如对数倒频谱系数,线性预测系数。特征提取多在频域进行,故先对音频数据进行加窗处理,加窗大小在10mg—30mg左右,然后对加窗后的数据即每一帧作离散傅里叶变换(DFT),实际上常用快速傅里叶变换(FFT),最后应用不同算法计算相应的特征。

自然界的声音极其广泛,如音乐声、风雨声、动物叫声、机器轰鸣声等,要从数以千万计的音频数据中提取所需的信息,常规的基于文本检索的方法是行不通的,这就需要新的技术。图像检索要提取颜色、纹理等特征,视频检索要提取关键帧特征,同样,只有从广泛的音频数据中提取特征信息,才能对不同音频数据进行分类和检索,这就要用到基于内容检索的方法。

基于内容的音频检索系统的第一步是先建立数据库对音频数据进行特征提取,将音频数据装入数据库的原始音频库部分,将特征装入特征库部分,通过特征对音频数据聚类,将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。音频检索主要采用示例查询(query by example,QBE)方式,用户通过查询界面确定样本并设定属性值,然后提交查询,系统对样本提取特征,结合属性值确定查询特征矢量,而后检索引擎对特征矢量与聚类参数集匹配,按相关性从大到小的顺序在特征库和原始音频库中找到一定数量的相应数据,并通过查询接口返回给用户。其中,原始音频库存放的是音频数据,特征库存放音频数据的特征,按记录存放,聚类参数库是对音频特征进行聚类所得的参数集,包括特征矢量空间的码本,阈值等信息。

音频技术已研究了20多年,但实用的搜索引擎还需时日。AOD、VoD、音频解析等系统的实用与推广,都需要高效的音频信息检索技术。其中一个重要的研究方向是Web上的音频搜索引擎。已经接触了很多强有力的Web搜索引擎,如Yahoo,AltVista,但比较实用的音频搜索引擎则是凤毛麟角。Internet上的多媒体流非常巨大,要有一些高效的搜索引擎从浩如烟海的数据中找出需要的信息。另外,语音识别的速度和准确率要提高,音频流的分析,音频数据的分类和整理都是迫切需要研究的课题。