首页 理论教育基于图像深度信息的人体动作识别研究:实验结果与分析

基于图像深度信息的人体动作识别研究:实验结果与分析

【摘要】:针对上述噪声,本章引入高斯核函数进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm。

通过两个实验验证多特征融合算法对交互动作识别的有效性。实验数据采用Kinect 传感器采集的深度图像序列。因深度传感器技术的局限性,故容易产生以下3 个方面的噪声:

①传感器设备在使用过程中自身产生的噪声,其值较大,均匀分布在整个图像中。

②传感器设备在采集数据的过程中频繁地从背景深度跳跃到前景深度引起的噪声,其值虽然较小,但是一般集中在目标边界,容易破坏目标边缘轮廓的形状特征。

③红外发射器与RGB 摄像机之间的位置差会导致“孔洞”现象,其值较小。

针对上述噪声,本章引入高斯核函数进行滤波处理。高斯核函数具有旋转对称性,可通过使用像素邻域的加权平均值代替该像素点的像素值,对图像各个方向的边缘噪声进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。

其实验流程如下:

(1)全局形状特征提取

使用Log-Gabor 滤波器的时间响应函数。位置(x,y) 的响应函数为

其中,w 为空间频率;μ 为滤波器预先设定值。本章设计的滤波器组包括9 个方向φ ∈{0°,20°,40°,60°,80°,100°,120°,140°,160°} 和4 个空间尺度μ ∈{2,4,8,16}。文中仅使用响应幅值‖gw(x,y)‖作为形状描述子,未使用相位信息。(www.chuimin.cn)

为了获得更加紧凑的形状特征,增加算法鲁棒性,实验采用Max-pooling技术对每个映射图进行采样操作,响应函数表示为

其中,g(x,y) 表示像素点(x,y) 的近邻域,使用(9 × 9) 大小的窗口每隔5个像素进行一次采样,归一化处理采样的特征向量,形成向量St。Maxpooling 技术比mean-pooling 技术具有更好的传输不变性。

(2)动作特征提取

实验使用光流法提取交互动作行为的运动特征,设计光流滤波器组形成不同的响应映射,每个滤波器均具有不同的速度和方向。设置条件:2 个空间尺度(μ ∈{8,16}),4 个等间隔方向(φ∈{0°,90°,180°,270°}) 和3 个速度。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm

(3)特征融合

基于深度图像序列提取的边缘形状特征向量和运动特征向量,采用加权叠加方法进行特征融合。加权表达式为

其中,λ ∈[0,1]为优化权重

实验采用两个交互行为数据集验证多特征融合算法的有效性:一个是双人交互动作数据集;另一个是人物交互动作数据集。