由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
构建卷积神经网络的三要素,即卷积层、下采样层和全连接层。卷积层和下采样层构成网络架构的关键部分,如图5.1 所示。
图5.1 构建卷积神经网络的关键部分示意图
(1)卷积层
卷积层是卷积神经网络的重要组成部分。它由一系列可学习的滤波器对输入图像作卷积运算获得的特征图组成。其过程相当于将多个输入信号加权求和后通过一个激活函数输出。相关计算可表示为
其中,表示第l 层的第j 个特征图矩阵;f 为激活函数;Nj表示特征图组合;*表示卷积运算;为卷积核矩阵;为偏置矩阵。
常用的激活函数有Sigmoid 函数、Tanh 函数、ReLU 函数等。
卷积神经网络中,使用激活函数的目的是能进行非线性建模,拥有逐层的非线性映射学习能力。
特征图数目取决于滤波器使用的个数,权值共享可减少各网络层之间的连接,降低过拟合风险。权值共享示意图如图5.2 所示。
图5.2 卷积神经网络中权值共享示意图
(2)下采样层
输入向量通过卷积层输出后,图像特征向量的维度将会快速增加,容易出现过拟合现象。为了避免过拟合现象发生,引入下采样层对特征映射图的特征进行聚合统计,这样不仅能降低特征维度,也能避免分类器过拟合。
下采样层也称池化层,是一种非线性的采样方法。目前,常用的池化操作有两种:一种为平均池化Mean-pooling;另一种为最大池化Max-pooling。平均池化是计算图像区域的平均值;最大池化是选取图像区域的最大值。尺度为S1× S2的下采样计算公式为
即对特征图中划分的不重叠矩形区域进行操作,输出子区域中的最大值或平均值。例如,使用步长为2、窗口大小为2 × 2 的滤波器对图像进行Maxpooling 操作示意图如图5.3 所示。
图5.3 最大池化操作示意图(www.chuimin.cn)
假定输入矢量X=(x0,x1,…,xN),其中,N 为输入层的单元数量;中间层的输出为H=(h0,h1,…,hL),其中,L 为中间层的单元数量;输出层为Y=(y0,y1,…,yM),其中,M 为输出层的单元数量。训练集的理想输出为D=(d0,d1,…,dM)。Vij为输出单元i 到隐含层单元j 的连接权值,Wjk为隐含层单元j 到输出单元k 的连接权值,两种单元的阈值对应为θk和φ j,则神经网络的训练过程如下:
①输入训练集。
②初始化权值。
③计算中间层输出矢量H 为
④计算网络的实际输出矢量Y 为
⑤计算输出误差δk,并计算中间层误差δj为
⑥分别计算权值和阈值(α 为学习率)为
⑦调整权值,即
⑧调整阈值,即
⑨判断指标是否满足精度要求。E ≤ε,ε 为误差进度控制参数。精度计算公式为
⑩迭代以上过程,直到满足要求。
有关基于图像深度信息的人体动作识别研究的文章
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
下面简单介绍大部分可公开获取的RGB-D 动作行为数据集。目前有3类人体动作行为数据集,即单视角动作行为数据集、多视角动作行为数据集和双人/多人交互动作行为数据集。单视角动作行为数据集MSR-Action3D[30]数据集是微软研究院2010 年公开的RGB-D 单视角行为数据集。10 个受试者共320 个样本。UTKinect[31]行为数据集是得克萨斯大学2012 年公布的。UTD-MHAD[88]行为数据集是由得克萨斯大学2015 年公布的。8 个受试者每个动作执行4 次。......
2023-10-28
最初,人体动作识别主要是以RGB 视频图像为研究对象,经过多年的努力,人体动作识别技术已取得了较快的发展。本书使用Kinect 传感器采集人体动作的深度图像信息,探讨人体动作识别的相关理论和技术难点,着重研究如何消除可能对识别结果造成的干扰因素,提高人体动作识别的鲁棒性与普适性。......
2023-10-28
表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
同样,利用卷积神经网络进行特征提取,也需要考虑上述因素。因此,有必要将卷积神经网络扩展到三维空间。图5.43D CNNs 总体架构示意图本章提出的3D 深度卷积神经网络模型包括5 个卷积层、2 个下采样层(池化层)、2 个全连接层及1 个Softmax 分类层。卷积神经网络模型一般使用Dropout 技术,防止过拟合现象。因此,本章选择贝叶斯算法优化3D 深度卷积神经网络。......
2023-10-28
深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。图1.2深度传感器Kinect 采集的图像类型基于深度图像提取的特征主要包括全局特征和局部特征。基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。......
2023-10-28
表3.1在MoCap 动作序列上提取关键帧从实验可知,本章提出的关键帧提取算法可有效地提取具有代表性的动作序列帧,关键帧序列只占样本序列的2/3 甚至更少,其余的帧均为冗余信息。因此,关键帧提取对减少运算复杂度、提高动作识别率具有重要意义。在关键帧提取实验的基础上,又进行了动作序列的关键轨迹提取实验。......
2023-10-28
针对上述噪声,本章引入高斯核函数进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm。......
2023-10-28
相关推荐