形状描述子三维轨迹的形状描述子是对各个离散轨迹点之间位置关系的一种表示。曲率表示运动轨迹曲线的局部形状变换,提取多尺度下曲率的过零点值,即空间极值点,将其作为形状描述子,这种方法称为曲率尺度空间。下面对3 种常用的形状特征描述子作简要介绍。该距离集合就是中心距函数形状描述子。根据上述分析,将利用欧氏距离描述运动轨迹形状的描述子,称为完整形状描述子。该完整形状描述子具有旋转、尺度和平移不变性。......
2023-10-28
上一节详细分析了基于骨架关节点运动轨迹进行动作特征表示方法,提出了张量形状描述子。骨架关节点的运动轨迹是一个高维的时间序列,具有较高的空间复杂度。因此,有必要进行特征降维,即空域压缩。人体动作识别是对多种类型的动作序列进行识别,每个序列的动作持续时间不一致,动作变化速度也不一样。因此,需要将所有的样本统一到相同的长度,即时域对齐。
(1)特征降维
研究中,常用主成分分析(Principal Component Analysis,PCA)[119]和线性判别分析(Linear Discriminant Analysis,LDA)[120]两种算法进行特征降维。该算法主要用于线性映射,对特征维度之间的非线性关联不是很理想。近年来,有的研究者引入核函数概念进行非线性映射分析,分别提出核主成分分析(Kernel Principal Component Analysis,KPCA)[121]和核判别分析(Kernel Discriminant Analysis,KDA)[122]方法。之后,又有学者在此基础上提出非参数化核判别分析(Kernel Nonparametric Discriminant Analysis,KNDA)[123]和多核判别分析(Multiple Kernel Discriminant Analysis,MKDA)[124]算法。
基于核函数进行特征降维,关键问题是选择合适的核函数及其参数,即对核函数进行优化。核函数优化常用的方法是k-折交叉验证(k-fold Cross Validation,CV)[125],即将训练集分为k 个不相交的子集,每次从分好的样本子集中拿出一个作为测试集,其余k-1 个样本子集作为训练集,选取分类准确率最高的核参数,依次进行k 次迭代,得到最优的核参数。近几年,有的学者还提出基于Fisher 准则的核参数优化方法[126-128]。交叉验证方法不适合样本数不足的情况,运算复杂度高,而基于Fisher 准则的核参数优化方法,运算复杂度低,但无法优化降维参数。本书提出的基于骨架关节点建立的张量模型是一个线性高维数组。因此,本书使用多线性主成分分析(Multi-linear Principal Component Analysis,MPCA)[118]算法进行特征降维。
(2)时域对齐
时域对齐是指两个不同时间长度的序列进行最优匹配。常用的一种非线性规整算法称为动态时间规整(Dynamic Time Warping,DTW)。它是将时间规整和距离测度结合起来进行时间序列匹配,沿路径进行搜索,当时间序列的匹配代价函数最小时,就得到最优的匹配路径。Corradini[129]使用DTW算法,有效解决了轨迹长度不匹配时的时域对齐问题。动态时间规整算法的优点是简单,易于实现。Zhou 等[130]将正则相关分析方法与DTW 算法相结合,提出正则时间规整(Canonical Time Warping,CTW)算法,实现了对不同时间维度序列的时域对齐。本书基于张量模型进行动态时间规整,提出张量动态时间规整(Tensor Dynamic Time Warping,TDTW)算法。
给定一个参考样本X=和测试样本Y=,样本长度分别为n 和m,其中,m <n。DTW 算法就是实现参考样本和测试样本之间的非线性映射,寻找最佳的匹配路径,使累积失真最小。假定匹配路径W={w1,w2,…,wr…,wk},其中,k 为路径长度,wr=(i,j)r表示匹配路径上第r匹配点是由xi和yj构成。其失真距离可表示为
为了使路径上所有匹配点的累积失真距离最小,搜索最优路径为
在搜索最优路径过程中,为了保证匹配过程的完整性和连续性,加入了边界限制条件,即匹配路径必须从第一点开始到最后一点结束,而且整个过程不允许有跳跃现象,必须随着时间单调进行且由相邻的匹配点对连接而成。因此,路径上任意匹配点wr=(i,j) 和前一点进行匹配,只能从(i-1,j),(i,j-1) 或者(i-1,j-1) 中进行选择,累积距离的递推为
其中,D(1,1)=d(1,1)。
由此可知,通过DTW 算法可对时间序列进行规整,使匹配过程中的累积失真距离达到最小,从而消除序列之间的时间差异,解决时域对齐问题。
下面将使用DTW 思想分析张量空间的时域对齐问题。已知矩阵可用二阶张量表示。给定两个向量矩阵X ∈RN×n和Y ∈RN×n,用二阶张量表示为(A)ij和(B)ij,则存在关系为
其中,DTW 算法使用一个共享模式(索引i)和一个j-mode 乘积,U 和V 均为转换矩阵。
点集序列可表示为具有3 个空间轴(X,Y,时间T)的三阶张量(A)ijk∈RI×J×K,具有共同的索引(i,j,k)。因此,可使用节点共享模式来共享任意的两个空间轴(即一个平面),单独对剩下空间轴的向量进行时间规整运算。TDTW 可视为3 个不同空间轴上DTW 的集合,即矢量IJ 平面(k-mode 乘积)、矢量JK 平面(i-mode 乘积)和矢量IK 平面(j-mode 乘积)。例如,mode-j 向量是矩阵(A)j∈RJ×(IK)的列向量,那么张量A 的j-mode 乘积就可通过转换矩阵U ∈RN×J表示为
其中,j-mode 乘积和mode-j 矢量矩阵关系为
基于以上分析,假定使用的训练集包含S 个动作序列,将每个序列用张量形状描述子进行表示,得到集合。首先确定训练集中最长序列长度tL,给定张量样本A ∈Rs×λ×t和参考样本Aref∈。根据式(2.24)进行最优路径规整,其中,d(i,j) 表示二阶张量Xi∈Rs×λ,Yi∈Rs×λ之间的Frobenius范数,即
(www.chuimin.cn)
D(i,j) 表示到A 的第i 帧和Aref的第j 帧的总距离。定义一个扩展矩阵W ∈,将每个时间序列的长度扩展到tL。通过优化规整路径使得扩展矩阵W 每一列只包含一个元素1,其余元素全为0。例如,一个时间长度为7 的样本序列规整到长度为9 的参考序列,使用DTW 算法求得的规整路径如图2.3(a)所示。若将较短序列对齐到参考序列,则可将规整路径中每列取一个非零元素,得到扩展矩阵W,如图2.3(b)所示。遍历整个训练集,得到规整以后训练集则有
图2.3 序列时间对齐示意图
(3)MPCW 算法框架描述
解决时域对齐问题之后,紧接着进行空域压缩。已知张量模型是一个多维独立的高维数据,本章使用多线性主成分分析(Multi-linear Principal Component Analysis,MPCA)算法实现特征降维。该算法通过一组映射矩阵,将训练集映射到低维张量空间。例如,给定一组映射矩阵i=1,…,N},则映射得到的低维张量空间为
其中,Pi<Ii,i=1,2(训练集为三阶张量)。
多线性主成分规整算法框架主要分为4 个步骤,如图2.4 所示。
图2.4 多线性主成分规整算法框架示意图
算法步骤:
①输入张量形状描述子。由于每类动作序列长度不一致,在构造张量模型之前,先对每类动作序列进行遍历,将最长序列作为参考序列,参考序列的长度作为张量模型的一个模。因此,整个训练集可用一个四阶张量A ∈表示。其中,S 表示骨架关节点数目,λ 表示选取的上下文点数目,tL表示一类动作序列中最长序列长度值,n 表示一类动作不同受试者采集的样本数。若集合包含S 类个动作序列,该数据集就表示为
②张量动态时间规整。从集合中选择最长时间序列作为时域对齐的参考序列,使用TDTW 算法为每个张量样本计算扩展矩阵Wi∈其中,ti表示集合中第i 个动作时间序列长度,tL表示参考序列长度。遍历整个训练集,根据式(2.22)计算得到一个时间维度归一化的训练集
③多线性主成分分析。首先进行初始化,对作特征值分解。其中,表示规整后训练集A′ 的i-mode 展开,然后将降维矩阵中的U(i)设置为φ(i)最大的Pi个特征值所对应的特征向量。
下面计算U(2)和U(3),假定输出的子空间张量为B ∈,则子张量
将B′=按1-mode 展开,得到矩阵B(1),对φ(1)=作特征值分解,求得最大的P1个特征值所对应的特征向量,并更新U(1)。同样,将B′按2-mode 展开,得到矩阵B(2),对φ(2)=作特征值分解,求得最大的P2个特征值所对应的特征向量,并更新U(2),使用同样的方法更新U(3),重复迭代求解映射矩阵若干次,直到收敛,得到最终的U(1),U(2),U(3)。
④输出张量计算。经过步骤①—步骤③处理后,可计算张量子空间为
解决了时域对齐和空域压缩问题后,紧接着进行动作分类。人体动作识别研究中常用分类算法有决策树分类法[131]、神经网络[132]、最近邻分类器(k-Nearest Neighbor,KNN)[133]及支持向量机(Support Vector Machines,SVM)[134]等。决策树分类法能在较短时间内通过静态测试对模型进行评测,得到较好的结果,但易出现过度拟合问题。神经网络分类的准确度较高,但需要很长的训练时间和大量数据。KNN 算法主要依靠近邻域样本进行所属类别的确定,更适合处理类域的交叉或重叠较多的待分样本集。支持向量机的核心思想是寻找目标函数的全局最小值,而大部分分类算法都是采用贪婪学习策略进行空间搜索,一般只能获取局部最优解。
以上介绍的是一些常用的分类方法,还有其他分类算法,如遗传算法、逻辑回归和Adaboosting 方法等。本章中提出的张量模型是一个多维的线性结构,并且采用线性映射进行特征降维,故选择KNN 分类算法进行动作分类。
有关基于图像深度信息的人体动作识别研究的文章
形状描述子三维轨迹的形状描述子是对各个离散轨迹点之间位置关系的一种表示。曲率表示运动轨迹曲线的局部形状变换,提取多尺度下曲率的过零点值,即空间极值点,将其作为形状描述子,这种方法称为曲率尺度空间。下面对3 种常用的形状特征描述子作简要介绍。该距离集合就是中心距函数形状描述子。根据上述分析,将利用欧氏距离描述运动轨迹形状的描述子,称为完整形状描述子。该完整形状描述子具有旋转、尺度和平移不变性。......
2023-10-28
关键帧提取在人体动作识别率中起着重要的作用。本节根据上一节提出的基于空间曲度概念进行动作序列关键帧提取。,N},其中,Lk表示关键帧组成动作序列的长度。关键帧提取数目的多少完全依赖阈值的设定,即阈值将是权衡动作识别准确率和运算复杂性之间的关键因素。⑦设定阈值τ,根据式进行关键轨迹点选取。......
2023-10-28
表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
表3.1在MoCap 动作序列上提取关键帧从实验可知,本章提出的关键帧提取算法可有效地提取具有代表性的动作序列帧,关键帧序列只占样本序列的2/3 甚至更少,其余的帧均为冗余信息。因此,关键帧提取对减少运算复杂度、提高动作识别率具有重要意义。在关键帧提取实验的基础上,又进行了动作序列的关键轨迹提取实验。......
2023-10-28
特征提取是人体动作识别的一个重要环节,高效、准确地提取特征可极大地提高动作识别率。学者们一般从两个方面进行底层视觉特征的提取:一是提取全局特征;二是提取局部特征。其目的是通过人体的形状轮廓信息获取全局特征。而对局部特征的提取方法,目前主要集中在提取时空兴趣点和动作运动轨迹两个方面。其优点是不易受到噪声和遮挡因素的影响,缺点是对提取的特征点准确性要求较高。下面简单介绍3 类特征提取方法。......
2023-10-28
卷积神经网络的这种局部连接、权值共享结构使其布局更接近于实际生物神经网络。②卷积神经网络引入多种形式的池化操作,可对特征提取过程产生的局部相似视觉特征、局部结构的尺度差异,甚至对局部几何畸变起到抑制作用,较好地保持了旋转、尺度和缩放不变性,能得到更加鲁棒的特征描述。更为关键的是,卷积神经网络在每一个神经元节点使用相同的连接权值,可更有效地捕获图像不同部位的同类型视觉特征。......
2023-10-28
下面简单介绍大部分可公开获取的RGB-D 动作行为数据集。目前有3类人体动作行为数据集,即单视角动作行为数据集、多视角动作行为数据集和双人/多人交互动作行为数据集。单视角动作行为数据集MSR-Action3D[30]数据集是微软研究院2010 年公开的RGB-D 单视角行为数据集。10 个受试者共320 个样本。UTKinect[31]行为数据集是得克萨斯大学2012 年公布的。UTD-MHAD[88]行为数据集是由得克萨斯大学2015 年公布的。8 个受试者每个动作执行4 次。......
2023-10-28
相关推荐