首页 理论教育基于深度信息的3D卷积神经网络构建与人体动作识别研究

基于深度信息的3D卷积神经网络构建与人体动作识别研究

【摘要】:同样,利用卷积神经网络进行特征提取,也需要考虑上述因素。因此,有必要将卷积神经网络扩展到三维空间。图5.43D CNNs 总体架构示意图本章提出的3D 深度卷积神经网络模型包括5 个卷积层、2 个下采样层(池化层)、2 个全连接层及1 个Softmax 分类层。卷积神经网络模型一般使用Dropout 技术,防止过拟合现象。因此,本章选择贝叶斯算法优化3D 深度卷积神经网络。

本章研究的人体动作识别是基于Kinect 传感器采集的深度图像序列,是一个时间连续序列,不仅具有空间维度,还具有时间维度。在整个特征提取过程中,不仅要提取目标的外观特征,还要包括目标的运动特征、组成动作序列的时空特征。同样,利用卷积神经网络进行特征提取,也需要考虑上述因素。因此,有必要将卷积神经网络扩展到三维空间

应进行三维卷积运算以获取多个连续帧的动态信息,即

式(5.15)表示卷积神经网络第i 层中第j 个特征图中位置(x,y,z) 的神经元。其中,3D 卷积核的时间维度为Ri,位置(p,q,r) 与第k 个特征图相连卷积核的权值为

通过三维卷积运算,特征图可以关联到前一层的多个连续帧,获取内部帧的空间结构信息和帧间关联信息。通过卷积运算可实现空间和时间上的局部相互作用,比传统的神经网络更接近于人脑的视觉工作原理。

与卷积层一样,同样需将下采样层扩展到三维空间。最大池化计算公式为

其中,s,t,r 分别是3 个方向的采样步长;X 为输入矢量;Y 为输出矢量。

通过下采样层,可大量减少数据量,加快运算速度。同时,还可很好地保持时域和空域的传输不变性。

本章提出的3D 深度卷积神经网络总体架构示意图如图5.4 所示。

图5.4 3D CNNs 总体架构示意图

本章提出的3D 深度卷积神经网络模型包括5 个卷积层、2 个下采样层(池化层)、2 个全连接层及1 个Softmax 分类层。下采样层使用Max-pooling,内核大小为2 × 2 × 2,步长为1。模型使用ReLU 函数作为激活函数,使用Dropout 技术避免过拟合现象。

ReLU 激活函数的定义为(www.chuimin.cn)

当conv(x,y,t) ≤0 时,输出值为0;当conv(x,y,t) >0 时,其值有效。使用ReLU 函数可加快网络学习的收敛速度,使输出量具有一定的稀疏性,增强网络的分类能力。同时,该激活函数只需设定一个阈值就能得到激活值,可省去很多复杂运算。收敛速度高于Sigmoid 函数和Tanh 函数。

下采样层可定义为

过拟合现象是训练模型对训练数据能非常好地拟合,对测试数据表现出非常差的一种现象。卷积神经网络模型一般使用Dropout 技术,防止过拟合现象。

Dropout 技术可对权值的更新方式进行改进,避免同时更新隐含节点,防止因共同的隐含节点多次提取同一特征的问题。Dropout 技术还可通过同时分享不同结构的网络模型隐含节点的权值,提高泛化能力。具体处理方式可描述为

其中,v 是n 维向量;W 是d ×n 维的二维矩阵;m 是d 维向量;a(x) 是激活函数,满足a(0)=0。即训练过程中,随机设置神经网络某些隐含层的权值为0,并进行状态保留,在后续训练过程中,恢复前面保留的权值。

Softmax 分类器能很好地处理多分类问题,是逻辑回归模型在多分类问题上的推广。因此,本章使用Softmax 分类器进行分类。假定一个含有m 样本k个类别的训练集,令y(i)∈{1,2,…,k} 为标签,对给定测试样本x,每个样本属于k 个类的概率为

其中,1{·} 是一个示性函数,1{值为真的表达式}=1,1{值为假的表达式}=0。损失函数越小意味着分类结果越精确。

目前,学者使用超级参数优化方法进行深度网络性能优化。常用的优化方法包括贪婪搜索[191]方法和贝叶斯[192]优化方法。比较两者的性能,贝叶斯算法具有更好的优化效果。因此,本章选择贝叶斯算法优化3D 深度卷积神经网络。