首页 理论教育特征数据集其他分类性能分析测试方法及结果分析

特征数据集其他分类性能分析测试方法及结果分析

【摘要】:前述测试主要是对利用特征数据进行分类精度对比,由于数据集大小、类分布不同等因素影响,精度只能在一定程度上代表数据对分类的支持情况。为探索特征数据的性能,更深入的分析是必要的。这组分析表明,特征数据集具有较好的线性可分特性。表5.11Fisher线性判别的分类结果2.特异分析在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称是特异数据或特异对象。

前述测试主要是对利用特征数据进行分类精度对比,由于数据集大小、类分布不同等因素影响,精度只能在一定程度上代表数据对分类的支持情况。为探索特征数据的性能,更深入的分析是必要的。作为分类的特征数据,希望其类间距离大而类内方差小,也就是说,不同类别间的特征值距离较远,而同一类别内的特征距离较近。为分析特征数据的距离特性,分别进行了判别式分析和特异分析。

1.判别式分析

为衡量特征数据间的距离,常规的就是利用欧氏距离,欧氏距离也适合本节数据集的计算。鉴于第5.3.5节的分类方法中,线性判别式分类器分类精度较好,选择利用此分类器中的线性判别式来计算数据集的距离特征。前面的实验表明,在区间划分取10行×10列以上时,可以获得较好的精度,为了不增加计算的复杂度,选择10×10划分的数据集,按6类数据规模大致相同的比例,组成一组新数据集,其记录构成为:walking-36、running-40、jogging-40、handwaving-40、handclapping-40、boxing-40,数据集大小为236×84。利用SPSS将集合进行判别式分析,分析以全部84维向量为独立的变量,建立Fisher线性的判别式,并根据判别函数来计算各类间距离与类内距离。

基本的Fisher判别方法是一种两类别判别方法,它利用使Fisher准则达到最大值的方向作为最优投影方向,样本模式在该方向投影后的类间散度达到最大而类内散度达到最小。以投影函数作为判决函数function,当样本的function的得值大于某个阈值时判定为一类,否则判定为另一类。判决阈值f0的典型选择有3种[94]

式中:为function作用在第1类和第2类样本上的平均值;N1、N2为第1类和第2类样本的数量;P(w1)、P(w2)为第1类和第2类样本先验概率。

对于多类的判别问题,以一类为判别目标,其他样本均设定为另一类,可以构造一判别函数;在剩余的类中,再以一类为判别目标,其他样本均设定为另一类,构造第2个判别函数;重复此过程,一直到每一类均能判别。所以一般n类分类问题需构造n-1个判别函数。

利用一Fisher判别函数,可以计算出每个记录的得值y。如果将记录数为n的数据集按其类别分为k组,第i组的记录数为ni,那么所在组间距离的平方和也称为组间散度,用式(5.6)表示:

式中:为全部数据的判别式得值的平均值;为第i组数据得值的平均值。

可见,SSA是各组平均值与总体平均值离差的平方和,反映了组间的总距离。SSE则反映了组内离差平方和,也称组内散度,其计算方法如式(5.7)所示:

F则是平均组间平方和与平均组内平方和之比,其值可有效表征数据集中组间松散与组内紧密的对比,计算方法如式(5.8)所示:

式(5.8)的F服从(k-1,n-k)个自由度的F分布,根据F分布表可以计算出其相伴概率值。如果相伴概率值小于显著性水平a,则认为各组间总体均值有显著差异[151]

因为数据集中有6类数据,建立了5个判别式Function 1~Function 5,由各判别式的Structure Matrix可知,特征向量的不同分量与不同的Function显著相关,各判别式的特征值如表5.9所示。

表5.9 5个判别式的特征值

其中的特征值Eigenvalue即为式(5.5)中的F值,表5.9的第1行表示利用Function 1,计算出的F值为41.123,它对整体分类的贡献是65.5%,下一列是累计的贡献百分比,最后一列为典型相关系数,反映的是此判别函数与组别间的关联程度。可以看出5个判别式累计分类的贡献率是100%,与分类类别相关程度均大于0.8;由Structure Matrix可知,数据集中的84维特征分别与5个判别式函数达到相关性显著水平;表5.10中1~6类代表前述的6类行为:walking、running、jogging、handwaving、handclapping、boxing,各类数据在不同的判别式的中心有显著差距,说明5个判别式对此数据集的分类判别是有效的。

表5.10 各类记录在5个判别式上的中心

如图5.6所示显示出由Function 1和Function 2计算出的各类数据的分布情况,其中,handwaving类别(4),已经能有效区分,但其他类别还要进一步识别。

图5.6 由Function 1和Function 2计算的各类数据分布图

如表5.11所示列出了最终的分类结果,可以看出分类错误仍出现在running和jogging之间,这和前面的测试是一致的。

这组分析表明,特征数据集具有较好的线性可分特性。

表5.11 Fisher线性判别的分类结果

2.特异分析

在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称是特异数据或特异对象。同一类特征数据相似性高,而不同类数据相似性低,在一类数据中掺入少量的其他类数据,希望掺入的数据能被识别为特异的。选择10×10划分的数据集,构造4个子集如表5.12所示,其中每个子集均有一大类,另外的类别记录加一起为小类,约占总记录的10%。

表5.12 4个子集组成表

以4个子集为数据,以大类为正类,以小类为负类,利用本书第3.2节的全局特异数据挖掘算法,计算记录的特异因子,将其排序后绘制ROC图,结果如图5.7和图5.8所示,各ROC曲线下面积值如表5.13所示。

表5.13 各ROC曲线下面积

图5.7 Subt1和Subt2的特异因子ROC图

(a)Subt1;(b)Subt2

图5.8 Subt3和Subt4的特异因子ROC图

(a)Subt3;(b)Subt4

由以上的图表可反映出,小类数据均表现出了较好的特异性。在Subt3的ROC曲线性能是最差的,主要原因是其中涉及running和jogging的区分。

至此,本节提出的行为识别特征数据具有较好的“不同类别间的特征值距离较远,而同一类别内的特征距离较近”的特性。