由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
为了进一步验证该算法的有效性。第二个实验选取交互动作行为具有高度相似性的MSRActionPairs[68]数据集。该数据集是微软研究院2013 年公布的,10 个受试者分别执行两次6 种类型动作。其主要的动作类型包括拿起/放下盒子(pick up/put down a box)、提起/放置盒子(lift /place a box)、推/拉椅子(push/pull a chair)、戴上/摘下帽子(wear/take off a hat)、背上/摘下背包(put on/take off a backpack)及贴上/取下海报(stick/remove a poster)。
数据具有“动作对”共享相似运动和形状特征的特点,但是运动和形状之间的关系又不尽相同。例如,“pick up”和“put down”具有相似的动作和形状特征,但之间的动作关系各不相同。本章从6 对“动作对”中选择动作最相近的5 对“动作对”作为实验对象,没有选择“push/pull a chair”动作对的原因是该动作特征主要是左右运动,其他的5 对“动作对”的特征是上下运动。这样选出的动作序列较原有的实验数据更具有动作相似性,但也增加了动作识别难度。其实验结果见表4.2。实验取得了91.5%的平均识别率,相应的混淆矩阵如图4.4 所示。
表4.2 同类识别算法对比的平均识别率
(www.chuimin.cn)
图4.4 在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图
实验结论:
①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。虽然该算法取得了较好的识别率,但并未达到理想效果,该算法只是进行了加权特征融合。后续可按照动作的时间顺序进行编码,获取像素级别的形状和运动联合特征,进一步提高动作识别率。
②多特征融合算法取得了91.5% 的平均识别率,低于文献[68]的93.3%平均识别率。但该算法过程简单,运算复杂度低,易于实现,可用于实时在线检测交互动作行为。
有关基于图像深度信息的人体动作识别研究的文章
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
表2.2不同识别算法在MSR-Action3D 数据集识别率对比图2.6在MSR-Action3D 数据集上识别率90.5%的混淆矩阵示意图第二个数据集是微软研究院于2012 年公开的MSRC-12 动作行为数据集[137]。同样使用最近邻分类器进行分类,其实验结果见表2.3,本章所述方法获得的动作识别率相应混淆矩阵如图2.7 所示。......
2023-10-28
最初,人体动作识别主要是以RGB 视频图像为研究对象,经过多年的努力,人体动作识别技术已取得了较快的发展。本书使用Kinect 传感器采集人体动作的深度图像信息,探讨人体动作识别的相关理论和技术难点,着重研究如何消除可能对识别结果造成的干扰因素,提高人体动作识别的鲁棒性与普适性。......
2023-10-28
针对上述噪声,本章引入高斯核函数进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm。......
2023-10-28
表3.1在MoCap 动作序列上提取关键帧从实验可知,本章提出的关键帧提取算法可有效地提取具有代表性的动作序列帧,关键帧序列只占样本序列的2/3 甚至更少,其余的帧均为冗余信息。因此,关键帧提取对减少运算复杂度、提高动作识别率具有重要意义。在关键帧提取实验的基础上,又进行了动作序列的关键轨迹提取实验。......
2023-10-28
卷积神经网络的这种局部连接、权值共享结构使其布局更接近于实际生物神经网络。②卷积神经网络引入多种形式的池化操作,可对特征提取过程产生的局部相似视觉特征、局部结构的尺度差异,甚至对局部几何畸变起到抑制作用,较好地保持了旋转、尺度和缩放不变性,能得到更加鲁棒的特征描述。更为关键的是,卷积神经网络在每一个神经元节点使用相同的连接权值,可更有效地捕获图像不同部位的同类型视觉特征。......
2023-10-28
下面简单介绍大部分可公开获取的RGB-D 动作行为数据集。目前有3类人体动作行为数据集,即单视角动作行为数据集、多视角动作行为数据集和双人/多人交互动作行为数据集。单视角动作行为数据集MSR-Action3D[30]数据集是微软研究院2010 年公开的RGB-D 单视角行为数据集。10 个受试者共320 个样本。UTKinect[31]行为数据集是得克萨斯大学2012 年公布的。UTD-MHAD[88]行为数据集是由得克萨斯大学2015 年公布的。8 个受试者每个动作执行4 次。......
2023-10-28
图4.1双人交互动作示意图该数据集包含RGB 视频图像、深度图像和骨骼深度信息3 种类型,提供7 位受试者两两组合形成的21 组数据,执行8 类不同的交互动作行为。表4.1同类识别算法对比的平均识别率图4.2在SBU 数据集上基于RGB 图像识别率93.8%的混淆矩阵示意图图4.3在SBU 数据集上基于深度图像识别率98.4%的混淆矩阵示意图实验结论:①基于深度图像数据进行交互动作识别得到的平均识别率为98.4%,高于基于RGB 视频图像序列进行识别的93.8%平均识别率。......
2023-10-28
相关推荐