首页 理论教育基于图像深度信息的人体动作识别研究-最新成果!

基于图像深度信息的人体动作识别研究-最新成果!

【摘要】:由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。

由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。因此,主要集中在以下3 个方面:

①环境影响。复杂背景、光照条件变化以及遮挡等外部环境影响。

②视角变化影响。不同视角将会导致环境背景不一致,同一动作不同的视觉效果将会带来人体重叠和遮挡等问题。

③动作多样性。不同人的动作习惯和同一动作个体表观的不同,将会导致动作类内差异性大和类间相似性高的问题。

人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。(www.chuimin.cn)

静态特征多指原始的图像特征,如剪影轮廓[5-8]、颜色直方图[9]以及基于灰度纹理的特征描述子[10]

动态特征是分析视频图像中的运动信息,如光流场[11-15]和运动轨迹[16-18]等。光流场主要描述随时间变化的动作幅度和方向,但容易受噪声影响。Efros 等[11]针对低分辨率的动作主体提出了一种多通道光流场,使用校正方法提高了光流场对噪声的鲁棒性。张飞燕等[15]通过数理统计方法,分析获取不同动作行为的梯度和光流直方图,分别提取梯度和光流的广义高斯分布模型参数,对人体动作进行特征描述,提出基于马氏距离的人体动作识别方法。Yu 等[17]通过尺度不变特征变换获取时空兴趣区域,引入权重因子,利用光流法提取区域内带权重轨迹的运动特征,然后使用光流词袋模型进行动作特征表示。

时空特征主要包括时空立方体、时空上下文等。其中,最为经典的是Bobick 等[19]根据目标动作行为发生的区域和位置,提出的运动能量图(Motion Energy Images,MEI)算法,以及根据动作行为发生的时间顺序,提出的运动历史图(Motion History Images,MHI)算法。通过计算运动能量图和运动历史图的Hu 矩特征,利用模板匹配方法进行动作识别。Weinland 等[20]基于运动历史图算法的思想,考虑了多视角问题,提出运动历史卷(Motion History Volumes,MHV)算法,将运动历史卷转换到柱状坐标系,使用Fourier变换进行动作特征提取。Laptev 等[21]提出时空兴趣点(Space-time Interest Points,STIP)概念,将提取2D Harris 点的方法扩展到三维空间,获取时空兴趣点。Scovanner 等[22]将尺度不变特性(Scale Invariant Feature Transform,SIFT)[23]扩展到三维空间,提出了同时具有抗光照变化、视角变化特点的3D SIFT 描述子。由于尺度不变特征变换具有较高的运算复杂度,Bay 等[24]提出了能提高运算速度和实时性的加速鲁棒性特征(Speeded-Up Robust Features,SURF)描述子。Wang 等[25]通过观察多尺度时空上下文区域中每一个兴趣点的特征密度,获取上下文关系,提出了上下文特征描述子。

虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。深度传感器的发布,使人们对三维世界的感知能力得到了进一步的提升,研究者可方便地提取更丰富的底层视觉信息。微软公司发布的Kinect 深度传感器不仅能提供RGB 视频图像,同时还能提供深度图像序列以及实时跟踪的人体骨架关节点位置信息,从而有效克服传统RGB 相机导致的空间位置关系丢失、上下境建模精度不高的问题。Kinect 传感器提供的深度图像具有颜色无关性和纹理不变性,能较好地避免光照、阴影等因素造成的影响。因此,近几年,基于深度图像和骨骼模型的人体动作识别研究受到了学者们广泛的关注[26-28],本书将从以下3 个方面介绍人体动作识别研究现状: