特征提取是人体动作识别的一个重要环节,高效、准确地提取特征可极大地提高动作识别率。学者们一般从两个方面进行底层视觉特征的提取:一是提取全局特征;二是提取局部特征。其目的是通过人体的形状轮廓信息获取全局特征。而对局部特征的提取方法,目前主要集中在提取时空兴趣点和动作运动轨迹两个方面。其优点是不易受到噪声和遮挡因素的影响,缺点是对提取的特征点准确性要求较高。下面简单介绍3 类特征提取方法。......
2023-10-28
实验对象是固定摄像头下单人运动视频录像,选用Christian Schuldt等制作的行为视频作素材[146]。该视频数据库称为KTH行为数据库,包括6种行为,分别是走、慢跑、跑、拳击、挥手和拍手。每类行为视频分别由25人,在4类不同的背景下录制。第1类是静态稳定的背景;第2类摄像头是固定的,但是镜头不断地拉近与拉远,录像范围变大变小;第3类录像中人穿了不同的衣服;第4类整个画面的光照不断变化。视频25帧/s,每帧120×160像素。
openCV是由Intel公司资助的开源计算机视觉函数库。它由一系列C函数和少量C++类构成,实现了图像处理和计算机视觉方面的很多通用算法。openCV的功能包括处理图像、视频和各种动态数据结构的操作,也包括相关的分析与识别算法,如对光流、运动分割、跟踪的分析以及HMM模型等。视频前期处理采用openCV的基础功能实现。
2.获取前景序列段
从视频文件中提取出运动前景序列是第一步工作。首先,对视频帧进行高斯平滑,以清除每帧中的细小噪声,而保留每帧的灰度分布特征。之后,对不同类型的视频采用不同方法提取前景。减背景技术是固定摄像头录像中取出运动前景的最直观的技术[121]。在实验视频中,“走、慢跑、跑”的视频一般是人从画面一端开始运动,从画面的另一端出去。实验中采用帧差累积法动态生成与更新背景,再采用减背景技术获取运动的前景帧序列;实验视频中的“拳击、挥手、拍手”3类视频是人站在画面中进行的,主要是手臂运动,如果采用帧差累积来生成与更新背景,减背景后只能获取手臂的运动,躯干部分没有了。注意到实验视频的背景以淡灰色为主,且大部分进行表演的人穿着深色衣服,所以对后3类视频简单地采用了固定颜色域值对视频帧进行分割。最后,对得到的前景序列进行形态学腐蚀和膨胀以平滑前景的边缘和填补小的空洞,这样获得了待处理的前景帧序列。如图5.2所示显示了实验中获取的“走”和“挥手”两类视频片段和前景序列。可以看出人的肤色与背景很接近,获得的前景帧中人脸与手等裸露的部分缺失了,但基本的人形是完整的。
图5.2 “走”和“挥手”的视频片段及实验中获取的前景序列
“走、慢跑、跑”的视频,人从画面一端进入,从画面的另一端出去,有自然的分段,每段一般为15~35帧;“拳击、挥手、拍手”3类视频没有自然的分段,实验中按每30帧一段进行了划分。由于实验中获取的前景技术较粗糙,一些视频无法获取较完整的人形,不能采用,这样最终获得的实验视频前景片段为640段,其中:走,36段;跑,46段;慢跑,44段;挥手,229段;拍手,131段;拳击,154段。
3.提取特征数据
对获取的每一前景帧,实验中提取人形在横和纵两个方向上不同区域的宽度及宽度内部的空档宽度(纵向即为高度)。首先找出人形的左右和上下边界线,形成人形矩形;将矩形在横竖两个方向分别均匀划分为若干区间;对每个横向区间,找出最宽的一行像素,取其宽度,并取得这一行中内部空档(背景区域)的累计宽度,为适应远景和近景的变化,将得到的宽度与当前矩形的高度相比,得到相对人高度的值,下面指的宽度均是指此相对宽度;纵向数据按相似的方法获取;为了反映人整体运动的方向与速度,找出每帧人形的质心坐标x和y。以横竖两个方向分别划分为5个区间为例,其示意图如图5.3所示。因为每个区间有最大宽度和最大宽度中的空档宽度两个数据,再加上质心坐标,每一帧获取的特征数据个数为:5×2+5×2+2=22。
图5.3 将一前景帧分成5行5列示意图
仍以每帧横竖两个方向分别划分为5个区间为例,一段视频将产生22个序列。计算这22个序列的帧间差,即从序列的第2项开始,用每个值减去序列中的前一个值,得到的仍是22个序列值,只不过序列的长度少了1。这22个序列中的前20个序列中,正值表示此区域当前帧较上一帧变宽了,数据为负则表示当前帧较上一帧变窄了。因此序列反映了视频中人运动时横向、纵向各区域宽窄变化,同时内部空档的宽窄变化;最后2个序列,反映了人的质心位置的变化。
以这22个序列来表征和识别运动,可以采用隐马尔可夫模型或动态时间规划方法来进行,目前研究也证实了这些方法对视频识别的有效性[140]。由于时序匹配的存储量大,识别算法复杂,本节采用了更简单的模式识别方法。为适应模式识别方法,需将序列特征提取出来,降低数据的复杂度。对于每个序列,忽略其中的0,进行同号合并,形成反映变化拐点的序列,序列的合并方法示例如图5.4所示。合并后的序列最简洁地反映了视频段中此区域的变化情况和质心x与y的变化情况。
图5.4 序列合并方法示例
合并后的序列仍是时间序列,我们希望获取反映此序列特征的特征值。考虑到6项运动具有周期性,实验中计算出序列的两个主要特征值,一是序列的频率,序列长度与视频段时间的比值,反映宽窄变化频率;二是序列的时间平均方差,按式(5.1)计算。式中X是序列中任一值,式(5.1)表示序列中每个数值与整个序列的绝对值的平均值的差的平方和,再除以视频段时间,本书中称其为时间平均方差,请注意其与统计中方差的区别。以此时间平均方差反映序列中宽窄变化的时间平均幅度。
如果横竖两个方向分别划分为5个区间,则一段视频最终可获取22×2=44个特征值。用这44个值组成一个特征向量,向量分量按横向1~5区间特征、纵向1~5区间特征、质心特征顺序排列,其结构如下:
[rf 1,rd 1,rsf 1,rsd 1,…,cf 1,cd 1,csf 1,csd 1,…,xf,xd,yf,yd]
其中,rf 1表示第1行(横向第1区间)宽度变化的频率;rd 1表示第1行宽度变化的时间平均方差;rsf 1表示第1行空档变化的频繁;rsd 1表示第1行空档变化的时间平均方差;cf 1表示第1列高度变化的频率;……;xf表示质心X变化的频率;……;yd表示质心Y变化的时间平均方差。由此,提出的视频特征属于第5.3.1节所述的第2类特征。
4.模式识别软件
PCP(Pattern Classification Program)是一组有监督学习模式识别分类算法开源软件,适用于由多维向量表征的模式分类任务[149]。PCP实现的算法有线性参数分类、二次参数分类、线性判别式分类、k最近邻分类、神经网络分类以及支持向量机分类等,能够进行分类、交叉验证和主成分分析等。利用PCP进行分类识别,一般应先将数据集分成训练集和测试集两个子集;选择一种识别方法后一般先选择学习,以从训练集中学习到模式;在学习过程中有些算法的参数要确定和优化,PCP可以自动将训练集进行交叉检验(crossvalidate)得到一些优化的参数,另外有一些参数需要用户指定;学习得到的模式用来对测试集进行识别,得出识别精度及详细的识别结果。识别精度的计算方法如式(5.2)。
线性判别式模式识别方法设定一组线性判别函数,并利用训练样本计算线性判别函数的有关参数。PCP采用的是标准的最小二乘线性判别式分类算法。PCP的线性参数分类方法和二次参数分类方法采用的是正态分布的贝叶斯分类器。PCP的支持向量机使用的是台湾大学林智仁副教授等开发设计的SVM模式识别与回归软件,Libsvm的程序[150]。
5.实验项目设计
为验证提出特征对行为识别的有效性,分别做了5组实验:
(1)以一组特征数据为源,分别采用各类模式识别方法,测试数据的特性。
(2)分别采用5×5、10×10、15×15、20×20划分前景,测试划分粗细程度对识别精度的影响。
(3)考虑采用不同长度的视频分段对测试识别精度的影响。
(4)对特征数据集进行线性判别分析,测试特征数据的线性可分性能。
(5)利用第3.2节的特异数据挖掘算法测试数据集的类内与类间距离特性。
以下第5.3.3~5.3.6小节将分别阐述这5组实验内容、结果及结论,最后对整个实验进行总结。
有关数据挖掘算法及在视频分析中的应用的文章
特征提取是人体动作识别的一个重要环节,高效、准确地提取特征可极大地提高动作识别率。学者们一般从两个方面进行底层视觉特征的提取:一是提取全局特征;二是提取局部特征。其目的是通过人体的形状轮廓信息获取全局特征。而对局部特征的提取方法,目前主要集中在提取时空兴趣点和动作运动轨迹两个方面。其优点是不易受到噪声和遮挡因素的影响,缺点是对提取的特征点准确性要求较高。下面简单介绍3 类特征提取方法。......
2023-10-28
关键帧提取在人体动作识别率中起着重要的作用。本节根据上一节提出的基于空间曲度概念进行动作序列关键帧提取。,N},其中,Lk表示关键帧组成动作序列的长度。关键帧提取数目的多少完全依赖阈值的设定,即阈值将是权衡动作识别准确率和运算复杂性之间的关键因素。⑦设定阈值τ,根据式进行关键轨迹点选取。......
2023-10-28
Gabor 滤波器还可通过设置不同的参数,构造出多通道滤波器,可提取不同方向多个尺度的图像特征,提取的图像特征具有光照变化不敏感和旋转不变性等特性。因此,本章选用Gabor 变换进行边缘形状特征的提取。同时,高频分量部分表达能力不足,带宽受到一定限制,影响特征的提取效果,在一定程度上无法反映图像的真实性。使用Log-Gabor 滤波器对图像进行边缘特征提取相当于一次卷积运算过程。......
2023-10-28
表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
形状描述子三维轨迹的形状描述子是对各个离散轨迹点之间位置关系的一种表示。曲率表示运动轨迹曲线的局部形状变换,提取多尺度下曲率的过零点值,即空间极值点,将其作为形状描述子,这种方法称为曲率尺度空间。下面对3 种常用的形状特征描述子作简要介绍。该距离集合就是中心距函数形状描述子。根据上述分析,将利用欧氏距离描述运动轨迹形状的描述子,称为完整形状描述子。该完整形状描述子具有旋转、尺度和平移不变性。......
2023-10-28
表3.1在MoCap 动作序列上提取关键帧从实验可知,本章提出的关键帧提取算法可有效地提取具有代表性的动作序列帧,关键帧序列只占样本序列的2/3 甚至更少,其余的帧均为冗余信息。因此,关键帧提取对减少运算复杂度、提高动作识别率具有重要意义。在关键帧提取实验的基础上,又进行了动作序列的关键轨迹提取实验。......
2023-10-28
卷积神经网络的这种局部连接、权值共享结构使其布局更接近于实际生物神经网络。②卷积神经网络引入多种形式的池化操作,可对特征提取过程产生的局部相似视觉特征、局部结构的尺度差异,甚至对局部几何畸变起到抑制作用,较好地保持了旋转、尺度和缩放不变性,能得到更加鲁棒的特征描述。更为关键的是,卷积神经网络在每一个神经元节点使用相同的连接权值,可更有效地捕获图像不同部位的同类型视觉特征。......
2023-10-28
相关推荐