Spark MLlib中的K-means算法使用Map分布式读取数据集,并存储在内存里。计算时,用Map键值对表示随机挑选出来的k个聚类中心,Spark的驱动器节点负责把数据发送到各个工作节点,以实现具体的计算任务。Spark MLlib不同于传统的机器学习工具,它提供了简单易用的API,特别是Spark能够高效地处理大数据,并且在迭代计算时具有较强的优势。......
2023-11-21
自然界的声音极其广泛,如语音、音乐声、风雨声、动物叫声、机器轰鸣声等。其中,语音和音乐是最常见的声音媒体。对声音进行数字化处理得到的结果称为音频。现有的声音数据库一般只允许用户把有限数目的文本关键字和描述赋予每个声音,而采用关键字进行检索。虽然音频如音乐可以用题名、作者或主题、分类来进行索引,但用户常常会要求用一段音乐旋律来检索乐曲。对音频,基于内容的处理涉及音频信号的分析、自动语音识别等技术。索引可以基于韵律、和音、旋律以及其他的感知或声学特征。声音的一些感知特征有音调、响度、音色、带宽、谐音等,可以对这些特性进行示例和特征值检索,也就是采用一个或多个客观的声学参数,或者输入一个参考的声音,要求系统检索相似或不相似的声音可以承载很大的信息量,是生活和工作中一种不可或缺的信息媒体。声音媒体是除视觉媒体外最重要的媒体,占总信息量的20%左右,语音和音乐是最常见的声音媒体。对声音进行数字化处理得到的结果称为音频。对音频,需要通过听觉特征进行检索。
声音其实是一种正弦波,具有振幅、频率、相位等特性。但由于声音是能感觉到的媒体,因此,声音具有物理和心理两种属性,并且是相互关联的。物理属性与波形有关,包括声强、频率、声波复合、谐波结构等属性。心理属性则与感觉有关,且因人而异,包括强度、音调、音色、音量、和谐等属性。
音频有别于一般数据,本身是一种正弦波,检索前需要进行预处理,以提取音频特征或文本描述。
(1)语音识别。
语音与文字是一一对应的,区别只在于语言不同,文字不同,所以如果把语音识别出来变成文字,就可以借助于常规的信息检索技术进行检索处理,或者进行其他操作,如人机权交互,就是语音识别的初衷。语音识别技术(automatic speech recognition,ASR)是音频处理的重点研究领域。对于基于内容的音频信息检索,首先应提取数据的音频特征,而后对音频特征进行匹配,从而进行音频数据的分类和检索。
语音识别技术已经从实验室走出来成为一种比较实用的技术。IBM的ViaVoice和Lernout & Hauspie的Voice Express是两种比较成功的系统,其中,ViaVoice将成为国内计算机的标准配置。
(2)关键词识别。
关键词识别是指在给定音频数据中查询少量特定的单词或短语。它可以通过对需要的关键词和填充模型进行HMM训练,以使其与每一个单词匹配。相对于大词汇量识别系统,关键词识别系统既精确,计算量又小,而且对实际的语音数据有较大的弹性。对于关键词识别技术,比较典型的测试是SWITCHBOARD集,它收藏了自然生成的电话对话。由于对话大都是关于某一主题的,因此有些研究组正试图自动检测某一对话的主题。来自BBN的研究人员曾综合大词汇量识别与关键词识别技术以解决主题确认问题。
(3)大词汇量语音识别。(www.chuimin.cn)
不同于关键词识别,大词汇量识别将大量的语音数据转换成文本形式。然而,单纯对所有单词建立HMM模型的大词汇量识别有一些缺点:如果单词不在语音词典中,将无法识别;需要建立语言模型,而且要有大量的文本训练集。有鉴于此,一般采用“子单词”方法,将单词分段,而不是对数以千万计的单词HMM模型。这样只需要用到几百个基于音节的子单词模型。将几个子单词和在一起就可构成完整的单词。比如,“right”就可以由3个子单词“R、AY、T”相加而成。另外,针对不同语言的特点,需要研究各单词的出现概率。ASR的一个优点是,大多数需要的音频数据是已知的,故可以离线操作。然而ASR系统的一个很大的缺点在于它的准确率较低。对于特定的领域,即使是最好的连续语音识别系统也只能达到90%左右的准确率。而对现实的任务如电话对话或新闻广播,只能有50%—60%的准确率。
(4)说话者检测。
说话者检测是音频处理的重要领域,可用以进行语音数据的对齐和视音频的聚类。相对于语音识别而言,说话者区别是比较简单而实用的技术。即不管说的是什么,只注意是谁说的。应用说话者识别进行多媒体数据流的分段是一个很有前途的领域。如果分析处理能在毫秒级足够准确的话,就可用来在音频或视频等多媒体数据中检测说话者的改变。学者Wyse开发了一种基于倒频谱差异的方法,该方法比较特征空间中相似区域的差别,以消除同一说话者内部的改变。当此差异大于适当阈值时,即可认定出现了新的说话者或话音有显著变化。此方法可与视频处理方法相结合,迅速有效地从音频与视频流中提取信息。
(5)音频特征与提取。
在进行音频检索之前,首先要提取音频特征。音频有其自身的特点和属性。在音频数据中提取特征有两种方法,一是提取感性特征,如音高、响度;二是计算非感性属性或称物理特性,如对数倒频谱系数,线性预测系数。特征提取多在频域进行,故先对音频数据进行加窗处理,加窗大小在10mg—30mg左右,然后对加窗后的数据即每一帧作离散傅里叶变换(DFT),实际上常用快速傅里叶变换(FFT),最后应用不同算法计算相应的特征。
自然界的声音极其广泛,如音乐声、风雨声、动物叫声、机器轰鸣声等,要从数以千万计的音频数据中提取所需的信息,常规的基于文本检索的方法是行不通的,这就需要新的技术。图像检索要提取颜色、纹理等特征,视频检索要提取关键帧特征,同样,只有从广泛的音频数据中提取特征信息,才能对不同音频数据进行分类和检索,这就要用到基于内容检索的方法。
基于内容的音频检索系统的第一步是先建立数据库对音频数据进行特征提取,将音频数据装入数据库的原始音频库部分,将特征装入特征库部分,通过特征对音频数据聚类,将聚类信息装入聚类参数库部分。数据库建立以后就可以进行音频信息检索。音频检索主要采用示例查询(query by example,QBE)方式,用户通过查询界面确定样本并设定属性值,然后提交查询,系统对样本提取特征,结合属性值确定查询特征矢量,而后检索引擎对特征矢量与聚类参数集匹配,按相关性从大到小的顺序在特征库和原始音频库中找到一定数量的相应数据,并通过查询接口返回给用户。其中,原始音频库存放的是音频数据,特征库存放音频数据的特征,按记录存放,聚类参数库是对音频特征进行聚类所得的参数集,包括特征矢量空间的码本,阈值等信息。
音频技术已研究了20多年,但实用的搜索引擎还需时日。AOD、VoD、音频解析等系统的实用与推广,都需要高效的音频信息检索技术。其中一个重要的研究方向是Web上的音频搜索引擎。已经接触了很多强有力的Web搜索引擎,如Yahoo,AltVista,但比较实用的音频搜索引擎则是凤毛麟角。Internet上的多媒体流非常巨大,要有一些高效的搜索引擎从浩如烟海的数据中找出需要的信息。另外,语音识别的速度和准确率要提高,音频流的分析,音频数据的分类和整理都是迫切需要研究的课题。
有关信息技术:基础+实践的文章
Spark MLlib中的K-means算法使用Map分布式读取数据集,并存储在内存里。计算时,用Map键值对表示随机挑选出来的k个聚类中心,Spark的驱动器节点负责把数据发送到各个工作节点,以实现具体的计算任务。Spark MLlib不同于传统的机器学习工具,它提供了简单易用的API,特别是Spark能够高效地处理大数据,并且在迭代计算时具有较强的优势。......
2023-11-21
也就是说,可以把图像数据库中与目标检索图像相似度不小于0.8的男西装图像检索了出来。图5-9男西装图像情感语义检索的检索结果根据上述结果,可以实现以情感相似性为度量的图像检索。总之,通过第2~第5章的论述,基本上把基于内容的男西装图像情感语义识别和检索问题的实现步骤、方法模型等论述完毕。......
2023-08-23
RNN算法对标准层次聚类的合并准则和相似度度量做了相应的改进,从而降低了其复杂度,使其更适用于大规模的数据集。当合并最近邻对得到一个新的簇时,需要重新计算该簇与其他各个簇的相似度,如果通过平均值的距离来度量两个簇的距离,其计算复杂度仅为O,但是由于本书采用的是平均距离,则需要通过更为有效的方法进一步降低复杂度。对于低维数据,还可以通过更为有效的最近邻搜索技术进一步降低复杂度。......
2023-06-28
目前,将神经网络应用于图像识别的文献很多[1,2],但用于服装图像的情感语义识别和检索还几乎没有,而本章及第4、第5章正是采用了神经网络对男西装图像情感语义识别和检索问题进行了探讨。图3-1男西装图像样本神经网络训练和入库的流程图3-3男西装图像情感语义检索的流程BP神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。......
2023-08-23
在图3-4所示状态下点击“图像特征提取”按钮,显示其首页页面,如图3-10所示。图3-13因子1输出文本截图图3-14因子2输出文本截图至此,经过以上步骤,男西装图像的低层特征数据就可以通过程序自动算出,为BP神经网络训练和学习做好了准备。......
2023-08-23
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2023-06-16
从色彩心理学来考虑,橘红的纯色定为最暖色,天蓝的纯色定义为最冷色,凡靠近暖极称为暖色,近冷极的称冷色,与两极距离相等的称为中性色。图8-1所示图像的饱和冷暖直方图和彩色对比度见表8-2。上述事实与前面的定性分析大体一致,显示出它们在色彩饱和度和冷暖特征上的区别,能够较好地描述图像的饱和度和冷暖分布,有利于实现第一个情感因子的推导。表8-2饱和度—冷暖模糊直方图......
2023-08-23
长期以来,由于人类情感的主观性和服装情感描述的模糊性,截至目前对服装情感的认识大多仍停留在定性阶段。而随着人工智能技术的发展及人们对服装品位的日益苛求和着装情绪化,我们认为是时候把对服装情感的研究和应用提升到“定量”阶段了。基于此,我们提出了“服装情感学”的概念,并把人工智能有关理论引入服装领域,结合心理学、感性工学等学科的研究成果,对服装情感进行量化研究,以期达到对服装情感的定量描述和量化评价。......
2023-08-23
相关推荐