图5.1构建卷积神经网络的关键部分示意图卷积层卷积层是卷积神经网络的重要组成部分。卷积神经网络中,使用激活函数的目的是能进行非线性建模,拥有逐层的非线性映射学习能力。图5.2卷积神经网络中权值共享示意图下采样层输入向量通过卷积层输出后,图像特征向量的维度将会快速增加,容易出现过拟合现象。......
2023-10-28
本章研究的人体动作识别是基于Kinect 传感器采集的深度图像序列,是一个时间连续序列,不仅具有空间维度,还具有时间维度。在整个特征提取过程中,不仅要提取目标的外观特征,还要包括目标的运动特征、组成动作序列的时空特征。同样,利用卷积神经网络进行特征提取,也需要考虑上述因素。因此,有必要将卷积神经网络扩展到三维空间。
应进行三维卷积运算以获取多个连续帧的动态信息,即
式(5.15)表示卷积神经网络第i 层中第j 个特征图中位置(x,y,z) 的神经元。其中,3D 卷积核的时间维度为Ri,位置(p,q,r) 与第k 个特征图相连卷积核的权值为
通过三维卷积运算,特征图可以关联到前一层的多个连续帧,获取内部帧的空间结构信息和帧间关联信息。通过卷积运算可实现空间和时间上的局部相互作用,比传统的神经网络更接近于人脑的视觉工作原理。
与卷积层一样,同样需将下采样层扩展到三维空间。最大池化计算公式为
其中,s,t,r 分别是3 个方向的采样步长;X 为输入矢量;Y 为输出矢量。
通过下采样层,可大量减少数据量,加快运算速度。同时,还可很好地保持时域和空域的传输不变性。
本章提出的3D 深度卷积神经网络总体架构示意图如图5.4 所示。
图5.4 3D CNNs 总体架构示意图
本章提出的3D 深度卷积神经网络模型包括5 个卷积层、2 个下采样层(池化层)、2 个全连接层及1 个Softmax 分类层。下采样层使用Max-pooling,内核大小为2 × 2 × 2,步长为1。模型使用ReLU 函数作为激活函数,使用Dropout 技术避免过拟合现象。
ReLU 激活函数的定义为(www.chuimin.cn)
当conv(x,y,t) ≤0 时,输出值为0;当conv(x,y,t) >0 时,其值有效。使用ReLU 函数可加快网络学习的收敛速度,使输出量具有一定的稀疏性,增强网络的分类能力。同时,该激活函数只需设定一个阈值就能得到激活值,可省去很多复杂运算。收敛速度高于Sigmoid 函数和Tanh 函数。
下采样层可定义为
过拟合现象是训练模型对训练数据能非常好地拟合,对测试数据表现出非常差的一种现象。卷积神经网络模型一般使用Dropout 技术,防止过拟合现象。
Dropout 技术可对权值的更新方式进行改进,避免同时更新隐含节点,防止因共同的隐含节点多次提取同一特征的问题。Dropout 技术还可通过同时分享不同结构的网络模型隐含节点的权值,提高泛化能力。具体处理方式可描述为
其中,v 是n 维向量;W 是d ×n 维的二维矩阵;m 是d 维向量;a(x) 是激活函数,满足a(0)=0。即训练过程中,随机设置神经网络某些隐含层的权值为0,并进行状态保留,在后续训练过程中,恢复前面保留的权值。
Softmax 分类器能很好地处理多分类问题,是逻辑回归模型在多分类问题上的推广。因此,本章使用Softmax 分类器进行分类。假定一个含有m 样本k个类别的训练集,令y(i)∈{1,2,…,k} 为标签,对给定测试样本x,每个样本属于k 个类的概率为
其中,1{·} 是一个示性函数,1{值为真的表达式}=1,1{值为假的表达式}=0。损失函数越小意味着分类结果越精确。
目前,学者使用超级参数优化方法进行深度网络性能优化。常用的优化方法包括贪婪搜索[191]方法和贝叶斯[192]优化方法。比较两者的性能,贝叶斯算法具有更好的优化效果。因此,本章选择贝叶斯算法优化3D 深度卷积神经网络。
有关基于图像深度信息的人体动作识别研究的文章
图5.1构建卷积神经网络的关键部分示意图卷积层卷积层是卷积神经网络的重要组成部分。卷积神经网络中,使用激活函数的目的是能进行非线性建模,拥有逐层的非线性映射学习能力。图5.2卷积神经网络中权值共享示意图下采样层输入向量通过卷积层输出后,图像特征向量的维度将会快速增加,容易出现过拟合现象。......
2023-10-28
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
下面简单介绍大部分可公开获取的RGB-D 动作行为数据集。目前有3类人体动作行为数据集,即单视角动作行为数据集、多视角动作行为数据集和双人/多人交互动作行为数据集。单视角动作行为数据集MSR-Action3D[30]数据集是微软研究院2010 年公开的RGB-D 单视角行为数据集。10 个受试者共320 个样本。UTKinect[31]行为数据集是得克萨斯大学2012 年公布的。UTD-MHAD[88]行为数据集是由得克萨斯大学2015 年公布的。8 个受试者每个动作执行4 次。......
2023-10-28
深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。图1.2深度传感器Kinect 采集的图像类型基于深度图像提取的特征主要包括全局特征和局部特征。基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。......
2023-10-28
表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
最初,人体动作识别主要是以RGB 视频图像为研究对象,经过多年的努力,人体动作识别技术已取得了较快的发展。本书使用Kinect 传感器采集人体动作的深度图像信息,探讨人体动作识别的相关理论和技术难点,着重研究如何消除可能对识别结果造成的干扰因素,提高人体动作识别的鲁棒性与普适性。......
2023-10-28
针对上述噪声,本章引入高斯核函数进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm。......
2023-10-28
3D CNNs模型在两种条件下的训练收敛速度如图5.5 所示,对比实验结果见表5.3。使用3D CNNs 模型在SBU-Interaction 数据集上进行动作识别可获得96.76%的平均识别率,通过迁移学习动作识别率可提高到97.42%,充分验证迁移学习在3D CNNs 模型上的可行性和有效性。......
2023-10-28
相关推荐