表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。因此,主要集中在以下3 个方面:
①环境影响。复杂背景、光照条件变化以及遮挡等外部环境影响。
②视角变化影响。不同视角将会导致环境背景不一致,同一动作不同的视觉效果将会带来人体重叠和遮挡等问题。
③动作多样性。不同人的动作习惯和同一动作个体表观的不同,将会导致动作类内差异性大和类间相似性高的问题。
人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。(www.chuimin.cn)
静态特征多指原始的图像特征,如剪影轮廓[5-8]、颜色直方图[9]以及基于灰度纹理的特征描述子[10]。
动态特征是分析视频图像中的运动信息,如光流场[11-15]和运动轨迹[16-18]等。光流场主要描述随时间变化的动作幅度和方向,但容易受噪声影响。Efros 等[11]针对低分辨率的动作主体提出了一种多通道光流场,使用校正方法提高了光流场对噪声的鲁棒性。张飞燕等[15]通过数理统计方法,分析获取不同动作行为的梯度和光流直方图,分别提取梯度和光流的广义高斯分布模型参数,对人体动作进行特征描述,提出基于马氏距离的人体动作识别方法。Yu 等[17]通过尺度不变特征变换获取时空兴趣区域,引入权重因子,利用光流法提取区域内带权重轨迹的运动特征,然后使用光流词袋模型进行动作特征表示。
时空特征主要包括时空立方体、时空上下文等。其中,最为经典的是Bobick 等[19]根据目标动作行为发生的区域和位置,提出的运动能量图(Motion Energy Images,MEI)算法,以及根据动作行为发生的时间顺序,提出的运动历史图(Motion History Images,MHI)算法。通过计算运动能量图和运动历史图的Hu 矩特征,利用模板匹配方法进行动作识别。Weinland 等[20]基于运动历史图算法的思想,考虑了多视角问题,提出运动历史卷(Motion History Volumes,MHV)算法,将运动历史卷转换到柱状坐标系,使用Fourier变换进行动作特征提取。Laptev 等[21]提出时空兴趣点(Space-time Interest Points,STIP)概念,将提取2D Harris 点的方法扩展到三维空间,获取时空兴趣点。Scovanner 等[22]将尺度不变特性(Scale Invariant Feature Transform,SIFT)[23]扩展到三维空间,提出了同时具有抗光照变化、视角变化特点的3D SIFT 描述子。由于尺度不变特征变换具有较高的运算复杂度,Bay 等[24]提出了能提高运算速度和实时性的加速鲁棒性特征(Speeded-Up Robust Features,SURF)描述子。Wang 等[25]通过观察多尺度时空上下文区域中每一个兴趣点的特征密度,获取上下文关系,提出了上下文特征描述子。
虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。深度传感器的发布,使人们对三维世界的感知能力得到了进一步的提升,研究者可方便地提取更丰富的底层视觉信息。微软公司发布的Kinect 深度传感器不仅能提供RGB 视频图像,同时还能提供深度图像序列以及实时跟踪的人体骨架关节点位置信息,从而有效克服传统RGB 相机导致的空间位置关系丢失、上下境建模精度不高的问题。Kinect 传感器提供的深度图像具有颜色无关性和纹理不变性,能较好地避免光照、阴影等因素造成的影响。因此,近几年,基于深度图像和骨骼模型的人体动作识别研究受到了学者们广泛的关注[26-28],本书将从以下3 个方面介绍人体动作识别研究现状:
有关基于图像深度信息的人体动作识别研究的文章
表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
最初,人体动作识别主要是以RGB 视频图像为研究对象,经过多年的努力,人体动作识别技术已取得了较快的发展。本书使用Kinect 传感器采集人体动作的深度图像信息,探讨人体动作识别的相关理论和技术难点,着重研究如何消除可能对识别结果造成的干扰因素,提高人体动作识别的鲁棒性与普适性。......
2023-10-28
下面简单介绍大部分可公开获取的RGB-D 动作行为数据集。目前有3类人体动作行为数据集,即单视角动作行为数据集、多视角动作行为数据集和双人/多人交互动作行为数据集。单视角动作行为数据集MSR-Action3D[30]数据集是微软研究院2010 年公开的RGB-D 单视角行为数据集。10 个受试者共320 个样本。UTKinect[31]行为数据集是得克萨斯大学2012 年公布的。UTD-MHAD[88]行为数据集是由得克萨斯大学2015 年公布的。8 个受试者每个动作执行4 次。......
2023-10-28
卷积神经网络的这种局部连接、权值共享结构使其布局更接近于实际生物神经网络。②卷积神经网络引入多种形式的池化操作,可对特征提取过程产生的局部相似视觉特征、局部结构的尺度差异,甚至对局部几何畸变起到抑制作用,较好地保持了旋转、尺度和缩放不变性,能得到更加鲁棒的特征描述。更为关键的是,卷积神经网络在每一个神经元节点使用相同的连接权值,可更有效地捕获图像不同部位的同类型视觉特征。......
2023-10-28
深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。图1.2深度传感器Kinect 采集的图像类型基于深度图像提取的特征主要包括全局特征和局部特征。基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。......
2023-10-28
针对上述噪声,本章引入高斯核函数进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm。......
2023-10-28
表2.2不同识别算法在MSR-Action3D 数据集识别率对比图2.6在MSR-Action3D 数据集上识别率90.5%的混淆矩阵示意图第二个数据集是微软研究院于2012 年公开的MSRC-12 动作行为数据集[137]。同样使用最近邻分类器进行分类,其实验结果见表2.3,本章所述方法获得的动作识别率相应混淆矩阵如图2.7 所示。......
2023-10-28
3D CNNs模型在两种条件下的训练收敛速度如图5.5 所示,对比实验结果见表5.3。使用3D CNNs 模型在SBU-Interaction 数据集上进行动作识别可获得96.76%的平均识别率,通过迁移学习动作识别率可提高到97.42%,充分验证迁移学习在3D CNNs 模型上的可行性和有效性。......
2023-10-28
相关推荐