首页 理论教育数据分类特性测试优化建议

数据分类特性测试优化建议

【摘要】:PCP每次均将数据集随机分成2个子集,轮流作为训练集与测试集,得到2个测试精度,10次均值实际上是20个精度值的平均,这个均值的有效性更好。交叉检验实验说明,利用特征数据能较好地区分各类行为。按第5.3.2节向量分量排列顺序,分量下标为k的特征,如果k或k+1能被4整除,说明其反映的是空档变化情况;不符合这个特征,说明其反映的是宽度变化情况。

为了获得一定的精度,先选择了较精细的划分,在横竖两个方向均划分为20个区间,按第5.3.2节的方法对筛选出的视频段进行特征提取,共获得640行向量,每个向量的维数有(20×2+20×2+2)×2=164个。为从不同角度测试数据的有效性,分别对此640×164数据集进行了交叉检验、特征分级及降维后的交叉检验测试。

1.不同识别方法的测试

为了测试模式识别方法在此数据集上的识别精度,一般的方法是将此数据集随机划分为训练集与测试集进行分类测试,实验选择了交叉检验。选择交叉检验,PCP程序将整个数据集随机分成K个子集,轮流取出一个子集做测试集,同时以另外K-1个子集做训练集,测试分类精度。实验中选择了2子集交叉,做10次检验,取精度的平均值。PCP每次均将数据集随机分成2个子集,轮流作为训练集与测试集,得到2个测试精度,10次均值实际上是20个精度值的平均,这个均值的有效性更好。以不同方法进行交叉检验结果如表5.1所示。

表5.1 以不同识别方法交叉检验结果

续表

由表5.1可知,不同的参数或不同的识别方法对同一数据集交叉检验,结果差距很大;支持向量机分类时,其核函数的选择,目前国际上还没有形成统一的模式,一般凭经验或实验对比来选择。从这个实验中看出,采用不同的核,分类精度差距很大;多层感知器实际上应用的是神经网络方法,因为神经网络的学习过程是迭代过程,前几次的精度很低,表5.1中的77.5%是全部迭代的平均值,所以是不准确的。如果以每次实验的最后两次迭代精度进行平均,其精度可达98.3%。

表5.1显示的是总的分类精度,为了区分此特征对每类行为的表征能力,表5.2列出了3种分类器下各类别的召回率R,R的计算方法如式(4.9)。

表5.2 3种分类器下各类别的召回率

表5.2显示,在用线性判别式分类器和最近邻分类器进行分类时,running和jogging两类召回率很低,其他4类一直保持较高的召回率。其主要原因是跑和慢跑均为跑,实际应为一快一慢,但实验录像中两类的界限较模糊,这一点在文献[144]中也有说明。实验中,如果除去其中的一类记录,那么总体精度均提高了。

交叉检验实验说明,利用特征数据能较好地区分各类行为。

2.特征值有效性分析

本部分进行测试的特征向量有164维,反映的是人体横向20个区间、纵向20个区间、质心x和质心y的变化的频率和幅度,在分类中,这164个特征值所起的作用是否相同?哪些部分的分类特征较明显些?为了说明这个问题,利用640×164的数据集进行了特征选择分析。特征选择是指从一组特征中挑选出对分类最有利的特征,一般特征选择的目的是降低空间维数,本实验的目的是为了分析各分量对识别运动行为的支持度。选择PCP特征选择中的特征分级功能(feature ranking),并选择Euclidean距离作为判据进行按距离特征分级;PCP给出向量中各分量在分类中所起作用的等级,将等级值映射到[0,1]区间,得到164个反映分类等级的值。表5.3列出了特征分级等级排前40个的下标值及对应的等级。因为结果庞大,不方便以表格形式全部列出,以点分布形式显示为如图5.5所示。图5.5中横坐标表示向量中特征值的下标1~164,纵坐标表示对应特征的分类有效性等级0~1,其值越大,表示在分类中所起的作用越大。

表5.3 特征分级等级排前40个的下标值及对应的等级

图5.5 特征分级结果

由表5.3和图5.5可以得出,有效性等级大于0.5的,其下标值均为偶数,说明大部分时间平均方差值在分类中所起作用明显。另外,全部值的有效性等级均大于0.2,说明所有特征均在分类中起到相当的作用,不能忽视。横向的1~20行特征反映在向量的1~80下标的特征值,其两端和中间作用明显,也就是头、手、脚部位的宽度变化在分类中作用显著;纵向的1~20列特征反映在向量的81~160下标的特征值,仍是两端和中间作用明显;161~164特征反映的是质心x和质心y的波动,4个值的分类作用均较小,这符合人对这6项运动的认识。

按第5.3.2节向量分量排列顺序,分量下标为k的特征,如果k或k+1能被4整除,说明其反映的是空档变化情况;不符合这个特征,说明其反映的是宽度变化情况。将结果按分级值降序排序,发现对应下标有或没有“k或k+1能被4整除”特征的交杂在一起,说明空档的变化情况和宽度变化情况在分类中所起的作用是相当的。在横竖两个方向均划分为20个区间,按第5.3.2节方法对筛选出的视频段进行特征提取,但只提取宽度而忽略宽度内空档的数据,仍可获得640行向量,每个向量的维数有(20+20+2)×2=84个。对此640×84数据集进行2子集交叉,10交叉检验,测试结果如表5.4所示,与表5.1的1、4、6、7行对比,精度大大降低了。

表5.4 不提取宽度内空档信息的数据集交叉检验结果

至此,特征向量分类特征明显,各分量在分类中均有效,不能明显找出分类作用很小或没有作用的分量,在后面的实验中将不对数据进行降维处理。