表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。深度图像与RGB 视频图像相比(见图1.2),具有以下优势:
①深度图像使用深度距离的大小表示图像像素值,对光照变化和环境变化不敏感,具有较好的稳定性。
②深度图像能描述3D 场景,反映几何特性和形状信息,比RGB 视频图像的颜色和纹理信息具有更好的辨识性,可有效地克服遮挡和重叠等问题。
因此,越来越多的学者开始基于深度图像进行人体动作识别研究。
图1.2 深度传感器Kinect 采集的图像类型
基于深度图像提取的特征主要包括全局特征和局部特征。提取动作全局特征就是对人体动作行为整体特征进行描述。全局特征主要包括人体轮廓形状特征、时空形状特征、运动特征以及一些更高层次的特征等。Yang等[57]将深度图像序列投影到指定的二维平面视图中,利用投影过程的时空特征构造动作特征描述子,提出一种深度运动映射(Depth Motion Map,DMM)算法,即将深度图像分别投影到前视图、顶视图和侧视图3 个正交平面,对每个平面上的连续图像帧进行差分计算,通过阈值判决法获取映射图像,并对该映射图像进行累积叠加,分别得到投影到每个平面的动作序列图像。Wang等[58]采用加权采样方案从深度图像序列中提取特征,首先对深度映射图像序列构成的四维时空体进行采样,获取不同时空位置和不同尺度的子时空体,统计每个子时空体中的像素个数,即各子时空体在四维时空体中的占有信息,将这种特征描述子称为随机占有模式(Random Occupancy Pattern,ROP)特征描述子,经过稀疏编码后,使用SVM 分类器进行动作分类。
基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。它不需要进行人体目标检测、前景和背景分割,也不需要精准定位和跟踪运动目标,只对动作显著性区域进行特征提取。其常用的局部特征描述子包括兴趣点邻域内像素分布特征、梯度大小及方向、形状特征和光流特征等。Gilbert 等[59]分别在xOy,yOz,xOz 3 个平面进行Harris 兴趣点检测,通过数据挖掘技术筛选兴趣点,从而获取性能稳定的时空兴趣点。Willems等[60]将二维SURF 特征检测方法扩展到三维Hessian 矩阵,提出显著度评价函数,利用非极大值抑制方法获取时空兴趣点。
近年来,人体动作识别采用了大量的局部特征提取方法,如词袋(Bag of Words,BoW)模型、稀疏编码(Sparse Coding,SC)、Fisher 核、局部矢量聚合描述符(Vector of Locally Aggregated Descriptors,VLAD)、朴素贝叶斯最近邻分类器(Naïve Bayes Nearest Neighbor,NBNN)等。Zhen 等[61]基于以上常用时空局部特征提取方法进行全面研究,在统一的实验环境下对3 个公开使用的动作数据集进行比较实验,并对该特征表示方法进行评价。Cheng 等[62]提出一种新颖的基于深度信息的描述子。该描述子用于描述动作的时空结构关系,首先使用Harris 检测算法获取时空兴趣显著点,构建一个3 × 3 × 3 的时空立方体,然后计算立方体中心点到其他点的深度值,按照顺序进行编码,提出比较编码描述子(Comparative Coding Descriptor,CCD)。Xia 等[63]基于时空立方体特征相似性(Depth Cuboid Similarity Feature,DCSF),提出了时空特征描述子,通过比较动作内容的自相似性,获取局部区域的几何分布信息,从而描述图像序列的局部外观模式。Seo 等[64]提出一种新颖的时空局部回归核(Space-Time Local Regression Kernels,STLRK)特征表示方法,通过构建时空立方体进行动作匹配,完成人体动作识别。
在人体动作识别研究中,提取的时空兴趣点和底层视觉特征并不是独立存在的,而是具有一定的相关性,这种相关性称为视觉上下文关系。它主要包括以下两个方面:(www.chuimin.cn)
①人体动作行为过程产生的时空分布关系,这种关系称为时空上下文。
②人体动作底层视觉特征的空间分布规律和潜在的语义信息具有一定的相关性,这种相关性称为语义上下文。
目前,应用在人体动作识别研究的上下文特征可分为3 类,即场景上下文、时空上下文和尺度上下文。其中应用较广泛的是时空上下文特征。Wu等[65]针对人体动作和环境的上下文关系进行研究,建立词袋模型,融合动作的时空分布信息,进一步增强了人体动作特征的描述能力。Wu 等[66]基于马尔科夫逻辑网(Markov Logic Network,MLN),研究时空兴趣点相对坐标的分布关系,使用多核学习方法融合时空上下文特征和外观特征。
除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。
目前,关于该方面的研究相对较少,基本上可分为基于局部占有模式和基于曲面法线两种研究方法。局部占有模式(Local Occupancy Pattern,LOP)[37]是对人体骨架关节点邻域内的点云进行分析,按照一定尺度将点云构建的局部空间进行网格划分,计算每个网格在局部空间的占有率,最后构建时间金字塔提取骨架关节点特征。该方法提取的动作特征可很好地描述动作的类内差异。基于曲面法线进行动作描述的方法是通过关节点和周围点云构建空间曲面,计算空间曲面法线向量,利用该向量特性对动作几何特征和动态信息进行描述。Rahmani 等[67]直接对3D 点云序列数据进行处理,提出了主成分方向直方图(Histogram of Oriented Principal Components,HOPC)特征描述子。该方法将对3D 点云序列中每一个点构成的球体内点的散布矩阵求取3 个主成分向量,然后将其投影到正20 面体的每个顶点向量方向,构成该点的HOPC 描述子。该方法可对噪声、动作速度差异以及视角变化形成的干扰有很好的抑制作用。Oreifej 等[68]将3D 空间的点云序列扩展到4D 空间,并对4D 空间进行单元量化,使用120 个顶点的四维体来表示每个量化单元,使用差分方式计算4D 空间的曲面法线,计算4D 曲面法线向量直方图(Histogram of Oriented 4D Surface Normal,HON4D),描述点云序列动作特征。Yang 等[69]受HON4D 方法启发,提出了一种新颖的超级法向量(Super Normal Vector,SNV)动作描述子,即通过对点云序列中每个点邻域内的4D曲面法线进行聚类。该方法通过构建自适应时空金字塔捕获空间布局和时间顺序,相对于HON4D 方法获取了更丰富的局部行为信息和几何结构。
Kinect 传感器不仅能同时采集RGB 视频图像和深度映射图像,而且还能实时跟踪人体,捕获人体骨架关节点位置状态信息。在性能方面,数据的多模态可形成很强的互补特性。因此,研究者们开始对多模态数据或基于多模态数据提取的特征进行有效融合,提出了具有高判别性的动作行为描述子。
Chaaraoui 等[70]提出一种将人体骨架关节点特征和RGB 视频图像特征进行特征融合的算法,首先将骨架关节点数据进行归一化处理,提取动作特征,然后提取RGB 视频图像剪影轮廓点特征,最后进行特征融合。Tran 等[71]提出一个3DS-HONV 描述子,用于捕获骨架关节点运动形状视觉线索,设计了一种有效的RGB-D 特征融合方案,将深度信息和颜色信息进行融合。Ohnbar等[72]提出了基于人体骨架关节点数据和深度图像特征融合方案,首先计算深度图像的方向梯度直方图,然后提取人体骨架关节点之间的角度信息,并将其映射到深度图像,进行空间HOG 运算,最后在时间维度上进行二次HOG 运算,得到最终的HOG2动作描述子。Zhu 等[73]提出一种决策级融合策略,该方法分别提取RGB 视频图像的时空梯度自相关特征,人体骨架关节点数据的EigenJoints 特征,深度图像的HON4D 特征。
综上所述,融合策略[74-77]可很好地提高动作识别率。因此,越来越多的学者开始进行这方面的研究。
有关基于图像深度信息的人体动作识别研究的文章
表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
下面简单介绍大部分可公开获取的RGB-D 动作行为数据集。目前有3类人体动作行为数据集,即单视角动作行为数据集、多视角动作行为数据集和双人/多人交互动作行为数据集。单视角动作行为数据集MSR-Action3D[30]数据集是微软研究院2010 年公开的RGB-D 单视角行为数据集。10 个受试者共320 个样本。UTKinect[31]行为数据集是得克萨斯大学2012 年公布的。UTD-MHAD[88]行为数据集是由得克萨斯大学2015 年公布的。8 个受试者每个动作执行4 次。......
2023-10-28
最初,人体动作识别主要是以RGB 视频图像为研究对象,经过多年的努力,人体动作识别技术已取得了较快的发展。本书使用Kinect 传感器采集人体动作的深度图像信息,探讨人体动作识别的相关理论和技术难点,着重研究如何消除可能对识别结果造成的干扰因素,提高人体动作识别的鲁棒性与普适性。......
2023-10-28
表2.2不同识别算法在MSR-Action3D 数据集识别率对比图2.6在MSR-Action3D 数据集上识别率90.5%的混淆矩阵示意图第二个数据集是微软研究院于2012 年公开的MSRC-12 动作行为数据集[137]。同样使用最近邻分类器进行分类,其实验结果见表2.3,本章所述方法获得的动作识别率相应混淆矩阵如图2.7 所示。......
2023-10-28
卷积神经网络的这种局部连接、权值共享结构使其布局更接近于实际生物神经网络。②卷积神经网络引入多种形式的池化操作,可对特征提取过程产生的局部相似视觉特征、局部结构的尺度差异,甚至对局部几何畸变起到抑制作用,较好地保持了旋转、尺度和缩放不变性,能得到更加鲁棒的特征描述。更为关键的是,卷积神经网络在每一个神经元节点使用相同的连接权值,可更有效地捕获图像不同部位的同类型视觉特征。......
2023-10-28
针对上述噪声,本章引入高斯核函数进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm。......
2023-10-28
表3.1在MoCap 动作序列上提取关键帧从实验可知,本章提出的关键帧提取算法可有效地提取具有代表性的动作序列帧,关键帧序列只占样本序列的2/3 甚至更少,其余的帧均为冗余信息。因此,关键帧提取对减少运算复杂度、提高动作识别率具有重要意义。在关键帧提取实验的基础上,又进行了动作序列的关键轨迹提取实验。......
2023-10-28
相关推荐