首页 理论教育基于图像深度信息的人体动作识别研究结果

基于图像深度信息的人体动作识别研究结果

【摘要】:深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。图1.2深度传感器Kinect 采集的图像类型基于深度图像提取的特征主要包括全局特征和局部特征。基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。

深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。深度图像与RGB 视频图像相比(见图1.2),具有以下优势:

①深度图像使用深度距离的大小表示图像像素值,对光照变化和环境变化不敏感,具有较好的稳定性。

②深度图像能描述3D 场景,反映几何特性和形状信息,比RGB 视频图像的颜色和纹理信息具有更好的辨识性,可有效地克服遮挡和重叠等问题。

因此,越来越多的学者开始基于深度图像进行人体动作识别研究。

图1.2 深度传感器Kinect 采集的图像类型

基于深度图像提取的特征主要包括全局特征和局部特征。提取动作全局特征就是对人体动作行为整体特征进行描述。全局特征主要包括人体轮廓形状特征、时空形状特征、运动特征以及一些更高层次的特征等。Yang等[57]将深度图像序列投影到指定的二维平面视图中,利用投影过程的时空特征构造动作特征描述子,提出一种深度运动映射(Depth Motion Map,DMM)算法,即将深度图像分别投影到前视图、顶视图和侧视图3 个正交平面,对每个平面上的连续图像帧进行差分计算,通过阈值判决法获取映射图像,并对该映射图像进行累积叠加,分别得到投影到每个平面的动作序列图像。Wang等[58]采用加权采样方案从深度图像序列中提取特征,首先对深度映射图像序列构成的四维时空体进行采样,获取不同时空位置和不同尺度的子时空体,统计每个子时空体中的像素个数,即各子时空体在四维时空体中的占有信息,将这种特征描述子称为随机占有模式(Random Occupancy Pattern,ROP)特征描述子,经过稀疏编码后,使用SVM 分类器进行动作分类。

基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。它不需要进行人体目标检测、前景和背景分割,也不需要精准定位和跟踪运动目标,只对动作显著性区域进行特征提取。其常用的局部特征描述子包括兴趣点邻域内像素分布特征、梯度大小及方向、形状特征和光流特征等。Gilbert 等[59]分别在xOy,yOz,xOz 3 个平面进行Harris 兴趣点检测,通过数据挖掘技术筛选兴趣点,从而获取性能稳定的时空兴趣点。Willems等[60]将二维SURF 特征检测方法扩展到三维Hessian 矩阵,提出显著度评价函数,利用非极大值抑制方法获取时空兴趣点。

近年来,人体动作识别采用了大量的局部特征提取方法,如词袋(Bag of Words,BoW)模型、稀疏编码(Sparse Coding,SC)、Fisher 核、局部矢量聚合描述符(Vector of Locally Aggregated Descriptors,VLAD)、朴素贝叶斯最近邻分类器(Naïve Bayes Nearest Neighbor,NBNN)等。Zhen 等[61]基于以上常用时空局部特征提取方法进行全面研究,在统一的实验环境下对3 个公开使用的动作数据集进行比较实验,并对该特征表示方法进行评价。Cheng 等[62]提出一种新颖的基于深度信息的描述子。该描述子用于描述动作的时空结构关系,首先使用Harris 检测算法获取时空兴趣显著点,构建一个3 × 3 × 3 的时空立方体,然后计算立方体中心点到其他点的深度值,按照顺序进行编码,提出比较编码描述子(Comparative Coding Descriptor,CCD)。Xia 等[63]基于时空立方体特征相似性(Depth Cuboid Similarity Feature,DCSF),提出了时空特征描述子,通过比较动作内容的自相似性,获取局部区域的几何分布信息,从而描述图像序列的局部外观模式。Seo 等[64]提出一种新颖的时空局部回归核(Space-Time Local Regression Kernels,STLRK)特征表示方法,通过构建时空立方体进行动作匹配,完成人体动作识别。

在人体动作识别研究中,提取的时空兴趣点和底层视觉特征并不是独立存在的,而是具有一定的相关性,这种相关性称为视觉上下文关系。它主要包括以下两个方面:(www.chuimin.cn)

①人体动作行为过程产生的时空分布关系,这种关系称为时空上下文。

②人体动作底层视觉特征的空间分布规律和潜在的语义信息具有一定的相关性,这种相关性称为语义上下文。

目前,应用在人体动作识别研究的上下文特征可分为3 类,即场景上下文、时空上下文和尺度上下文。其中应用较广泛的是时空上下文特征。Wu等[65]针对人体动作和环境的上下文关系进行研究,建立词袋模型,融合动作的时空分布信息,进一步增强了人体动作特征的描述能力。Wu 等[66]基于马尔科夫逻辑网(Markov Logic Network,MLN),研究时空兴趣点相对坐标的分布关系,使用多核学习方法融合时空上下文特征和外观特征。

除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。

目前,关于该方面的研究相对较少,基本上可分为基于局部占有模式和基于曲面法线两种研究方法。局部占有模式(Local Occupancy Pattern,LOP)[37]是对人体骨架关节点邻域内的点云进行分析,按照一定尺度将点云构建的局部空间进行网格划分,计算每个网格在局部空间的占有率,最后构建时间金字塔提取骨架关节点特征。该方法提取的动作特征可很好地描述动作的类内差异。基于曲面法线进行动作描述的方法是通过关节点和周围点云构建空间曲面,计算空间曲面法线向量,利用该向量特性对动作几何特征和动态信息进行描述。Rahmani 等[67]直接对3D 点云序列数据进行处理,提出了主成分方向直方图(Histogram of Oriented Principal Components,HOPC)特征描述子。该方法将对3D 点云序列中每一个点构成的球体内点的散布矩阵求取3 个主成分向量,然后将其投影到正20 面体的每个顶点向量方向,构成该点的HOPC 描述子。该方法可对噪声、动作速度差异以及视角变化形成的干扰有很好的抑制作用。Oreifej 等[68]将3D 空间的点云序列扩展到4D 空间,并对4D 空间进行单元量化,使用120 个顶点的四维体来表示每个量化单元,使用差分方式计算4D 空间的曲面法线,计算4D 曲面法线向量直方图(Histogram of Oriented 4D Surface Normal,HON4D),描述点云序列动作特征。Yang 等[69]受HON4D 方法启发,提出了一种新颖的超级法向量(Super Normal Vector,SNV)动作描述子,即通过对点云序列中每个点邻域内的4D曲面法线进行聚类。该方法通过构建自适应时空金字塔捕获空间布局和时间顺序,相对于HON4D 方法获取了更丰富的局部行为信息和几何结构。

Kinect 传感器不仅能同时采集RGB 视频图像和深度映射图像,而且还能实时跟踪人体,捕获人体骨架关节点位置状态信息。在性能方面,数据的多模态可形成很强的互补特性。因此,研究者们开始对多模态数据或基于多模态数据提取的特征进行有效融合,提出了具有高判别性的动作行为描述子。

Chaaraoui 等[70]提出一种将人体骨架关节点特征和RGB 视频图像特征进行特征融合的算法,首先将骨架关节点数据进行归一化处理,提取动作特征,然后提取RGB 视频图像剪影轮廓点特征,最后进行特征融合。Tran 等[71]提出一个3DS-HONV 描述子,用于捕获骨架关节点运动形状视觉线索,设计了一种有效的RGB-D 特征融合方案,将深度信息和颜色信息进行融合。Ohnbar等[72]提出了基于人体骨架关节点数据和深度图像特征融合方案,首先计算深度图像的方向梯度直方图,然后提取人体骨架关节点之间的角度信息,并将其映射到深度图像,进行空间HOG 运算,最后在时间维度上进行二次HOG 运算,得到最终的HOG2动作描述子。Zhu 等[73]提出一种决策级融合策略,该方法分别提取RGB 视频图像的时空梯度自相关特征,人体骨架关节点数据的EigenJoints 特征,深度图像的HON4D 特征。

综上所述,融合策略[74-77]可很好地提高动作识别率。因此,越来越多的学者开始进行这方面的研究。