首页 理论教育人体动作识别:基于卷积神经网络的深度图像研究

人体动作识别:基于卷积神经网络的深度图像研究

【摘要】:图5.1构建卷积神经网络的关键部分示意图卷积层卷积层是卷积神经网络的重要组成部分。卷积神经网络中,使用激活函数的目的是能进行非线性建模,拥有逐层的非线性映射学习能力。图5.2卷积神经网络中权值共享示意图下采样层输入向量通过卷积层输出后,图像特征向量的维度将会快速增加,容易出现过拟合现象。

构建卷积神经网络的三要素,即卷积层、下采样层和全连接层。卷积层和下采样层构成网络架构关键部分,如图5.1 所示。

图5.1 构建卷积神经网络的关键部分示意图

(1)卷积层

卷积层是卷积神经网络的重要组成部分。它由一系列可学习的滤波器对输入图像作卷积运算获得的特征图组成。其过程相当于将多个输入信号加权求和后通过一个激活函数输出。相关计算可表示为

其中,表示第l 层的第j 个特征图矩阵;f 为激活函数;Nj表示特征图组合;*表示卷积运算;为卷积核矩阵;为偏置矩阵。

常用的激活函数有Sigmoid 函数、Tanh 函数、ReLU 函数等。

卷积神经网络中,使用激活函数的目的是能进行非线性建模,拥有逐层的非线性映射学习能力。

特征图数目取决于滤波器使用的个数,权值共享可减少各网络层之间的连接,降低过拟合风险。权值共享示意图如图5.2 所示。

图5.2 卷积神经网络中权值共享示意图

(2)下采样层

输入向量通过卷积层输出后,图像特征向量维度将会快速增加,容易出现过拟合现象。为了避免过拟合现象发生,引入下采样层对特征映射图的特征进行聚合统计,这样不仅能降低特征维度,也能避免分类器过拟合。

下采样层也称池化层,是一种非线性的采样方法。目前,常用的池化操作有两种:一种为平均池化Mean-pooling;另一种为最大池化Max-pooling。平均池化是计算图像区域的平均值;最大池化是选取图像区域的最大值。尺度为S1× S2的下采样计算公式为

即对特征图中划分的不重叠矩形区域进行操作,输出子区域中的最大值或平均值。例如,使用步长为2、窗口大小为2 × 2 的滤波器对图像进行Maxpooling 操作示意图如图5.3 所示。

图5.3 最大池化操作示意图(www.chuimin.cn)

假定输入矢量X=(x0,x1,…,xN),其中,N 为输入层的单元数量;中间层的输出为H=(h0,h1,…,hL),其中,L 为中间层的单元数量;输出层为Y=(y0,y1,…,yM),其中,M 为输出层的单元数量。训练集的理想输出为D=(d0,d1,…,dM)。Vij为输出单元i 到隐含层单元j 的连接权值,Wjk为隐含层单元j 到输出单元k 的连接权值,两种单元的阈值对应为θk和φ j,则神经网络的训练过程如下:

①输入训练集。

②初始化权值。

③计算中间层输出矢量H 为

④计算网络的实际输出矢量Y 为

⑤计算输出误差δk,并计算中间层误差δj

⑥分别计算权值和阈值(α 为学习率)为

⑦调整权值,即

⑧调整阈值,即

⑨判断指标是否满足精度要求。E ≤ε,ε 为误差进度控制参数。精度计算公式为

⑩迭代以上过程,直到满足要求。