针对不平衡数据集的分类问题是一类重要的分类问题,在网络入侵检测、信用卡欺诈识别及疾病诊断等领域有实际应用。表4.6中显示的是整个数据集的分类精度,在不平衡数据集中,小类是被关注的对象,其被识别的精度更能反映算法的性能判别。在4个数据子集Sub1、Sub2、Sub3、Sub4中,包含8个攻击类和一个正常类。图4.24个子集的规模与训练时间的关系图4.34个子集的规模与测试时间的关系......
2023-06-16
为了获得一定的精度,先选择了较精细的划分,在横竖两个方向均划分为20个区间,按第5.3.2节的方法对筛选出的视频段进行特征提取,共获得640行向量,每个向量的维数有(20×2+20×2+2)×2=164个。为从不同角度测试数据的有效性,分别对此640×164数据集进行了交叉检验、特征分级及降维后的交叉检验测试。
1.不同识别方法的测试
为了测试模式识别方法在此数据集上的识别精度,一般的方法是将此数据集随机划分为训练集与测试集进行分类测试,实验选择了交叉检验。选择交叉检验,PCP程序将整个数据集随机分成K个子集,轮流取出一个子集做测试集,同时以另外K-1个子集做训练集,测试分类精度。实验中选择了2子集交叉,做10次检验,取精度的平均值。PCP每次均将数据集随机分成2个子集,轮流作为训练集与测试集,得到2个测试精度,10次均值实际上是20个精度值的平均,这个均值的有效性更好。以不同方法进行交叉检验结果如表5.1所示。
表5.1 以不同识别方法交叉检验结果
续表
由表5.1可知,不同的参数或不同的识别方法对同一数据集交叉检验,结果差距很大;支持向量机分类时,其核函数的选择,目前国际上还没有形成统一的模式,一般凭经验或实验对比来选择。从这个实验中看出,采用不同的核,分类精度差距很大;多层感知器实际上应用的是神经网络方法,因为神经网络的学习过程是迭代过程,前几次的精度很低,表5.1中的77.5%是全部迭代的平均值,所以是不准确的。如果以每次实验的最后两次迭代精度进行平均,其精度可达98.3%。
表5.1显示的是总的分类精度,为了区分此特征对每类行为的表征能力,表5.2列出了3种分类器下各类别的召回率R,R的计算方法如式(4.9)。
表5.2 3种分类器下各类别的召回率
表5.2显示,在用线性判别式分类器和最近邻分类器进行分类时,running和jogging两类召回率很低,其他4类一直保持较高的召回率。其主要原因是跑和慢跑均为跑,实际应为一快一慢,但实验录像中两类的界限较模糊,这一点在文献[144]中也有说明。实验中,如果除去其中的一类记录,那么总体精度均提高了。
交叉检验实验说明,利用特征数据能较好地区分各类行为。
2.特征值有效性分析
本部分进行测试的特征向量有164维,反映的是人体横向20个区间、纵向20个区间、质心x和质心y的变化的频率和幅度,在分类中,这164个特征值所起的作用是否相同?哪些部分的分类特征较明显些?为了说明这个问题,利用640×164的数据集进行了特征选择分析。特征选择是指从一组特征中挑选出对分类最有利的特征,一般特征选择的目的是降低空间维数,本实验的目的是为了分析各分量对识别运动行为的支持度。选择PCP特征选择中的特征分级功能(feature ranking),并选择Euclidean距离作为判据进行按距离特征分级;PCP给出向量中各分量在分类中所起作用的等级,将等级值映射到[0,1]区间,得到164个反映分类等级的值。表5.3列出了特征分级等级排前40个的下标值及对应的等级。因为结果庞大,不方便以表格形式全部列出,以点分布形式显示为如图5.5所示。图5.5中横坐标表示向量中特征值的下标1~164,纵坐标表示对应特征的分类有效性等级0~1,其值越大,表示在分类中所起的作用越大。
表5.3 特征分级等级排前40个的下标值及对应的等级
图5.5 特征分级结果
由表5.3和图5.5可以得出,有效性等级大于0.5的,其下标值均为偶数,说明大部分时间平均方差值在分类中所起作用明显。另外,全部值的有效性等级均大于0.2,说明所有特征均在分类中起到相当的作用,不能忽视。横向的1~20行特征反映在向量的1~80下标的特征值,其两端和中间作用明显,也就是头、手、脚部位的宽度变化在分类中作用显著;纵向的1~20列特征反映在向量的81~160下标的特征值,仍是两端和中间作用明显;161~164特征反映的是质心x和质心y的波动,4个值的分类作用均较小,这符合人对这6项运动的认识。
按第5.3.2节向量分量排列顺序,分量下标为k的特征,如果k或k+1能被4整除,说明其反映的是空档变化情况;不符合这个特征,说明其反映的是宽度变化情况。将结果按分级值降序排序,发现对应下标有或没有“k或k+1能被4整除”特征的交杂在一起,说明空档的变化情况和宽度变化情况在分类中所起的作用是相当的。在横竖两个方向均划分为20个区间,按第5.3.2节方法对筛选出的视频段进行特征提取,但只提取宽度而忽略宽度内空档的数据,仍可获得640行向量,每个向量的维数有(20+20+2)×2=84个。对此640×84数据集进行2子集交叉,10交叉检验,测试结果如表5.4所示,与表5.1的1、4、6、7行对比,精度大大降低了。
表5.4 不提取宽度内空档信息的数据集交叉检验结果
至此,特征向量分类特征明显,各分量在分类中均有效,不能明显找出分类作用很小或没有作用的分量,在后面的实验中将不对数据进行降维处理。
有关数据挖掘算法及在视频分析中的应用的文章
针对不平衡数据集的分类问题是一类重要的分类问题,在网络入侵检测、信用卡欺诈识别及疾病诊断等领域有实际应用。表4.6中显示的是整个数据集的分类精度,在不平衡数据集中,小类是被关注的对象,其被识别的精度更能反映算法的性能判别。在4个数据子集Sub1、Sub2、Sub3、Sub4中,包含8个攻击类和一个正常类。图4.24个子集的规模与训练时间的关系图4.34个子集的规模与测试时间的关系......
2023-06-16
单层纸板利用长网或圆网纸机生产,多层纸板用平板纸板机或卷筒纸板机生产。纸板机分为圆网型、长网型、长圆网型联合纸板机、叠网及夹网型纸板机。纸板机的干燥部可不用干毯,对烘缸数目较多的纸板机,采用三层或多层排列。多长网纸板机的结构复杂,增加了厂房建筑高度,基本建设投资大,维护费用高。纸板机设三道压榨。......
2023-06-23
识别模型各种类之间的区别,简要地讨论模型类型的选择是很有用的。表22-1成对模型类型的分类及特性1.该对模型是建立在应用基础上的模型:科研模型和管理模型。2.该对模型是随机模型和确定性模型。确定性模型是假设系统的未来响应是完全取决于对当前状态的了解和未来的测量输入。4.该对模型是简化模型和整体模型。分类依据是模型的科学概念的差别。他们认为系统的性质是所有细节的总和。稳定状态所对应的情况是所有导数为零。......
2023-11-17
图7-41 FANUC系统的存储空间和储能电容2.数据的分类机床数据文件主要分为系统文件、机床厂文件和用户文件三种。其中,系统文件为FANUC公司提供的CNC控制软件和伺服控制软件等;MTB文件包括PMC程序等;用户文件包括CNC参数、PMC参数、螺距误差补偿值、用户宏程序变量、刀具补偿值、加工程序、对话式编程数据、操作履历数据及伺服波形诊断数据等。表7-6 FANUC系统FROM中的文件注:□表示1个字符的数字,表示1个字符的字母或数字。......
2023-06-23
1)问题描述星间链路的调度无法像地面网络一样频繁切换,一旦用户星接入某中继星天线进行数据中继传输,将较长时间占用该资源。由于中继卫星的天线资源有限,星间可见时间和数据有效时限的约束将导致大量重要的和紧急的数传任务因为冲突而无法完成。为提高中继卫星数传资源利用率和对用户的服务质量,本章建立可续传的数据续传约束规划模型,即允许任务分成多个片断在不同可见时间窗口或不同中继星链路上传输。......
2023-07-02
前述测试主要是对利用特征数据进行分类精度对比,由于数据集大小、类分布不同等因素影响,精度只能在一定程度上代表数据对分类的支持情况。为探索特征数据的性能,更深入的分析是必要的。这组分析表明,特征数据集具有较好的线性可分特性。表5.11Fisher线性判别的分类结果2.特异分析在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称是特异数据或特异对象。......
2023-06-16
熔融后的EVA热熔胶,呈浅棕色或白色。EVA热熔胶由基本树脂、增黏剂、黏度调节剂和抗氧化剂等成分组成。由于胶体在高温熔融状态下会发生氧化反应,加入抗氧化剂可以保证胶体在高温条件下黏结性能不发生变化,防止EVA热熔胶的过早老化。试验过程中热熔胶无发烟、相分离、凝胶现象;无沉淀,无颜色变化,软化点和熔融黏度符合《YC/T 187—2004烟用热熔胶》表1技术指标要求的为合格,否则该项指标为不合格。......
2023-06-29
目前,动作特性试验大都采用便于现场携带的开关特性测试仪进行测试。现以GKC—D开关机械特性测试仪为例加以说明。图12-6 单断口六线制接法2)双断口九线制接法:将开关三相静触头的六端分别对应连接到仪器A~C′六个接线柱,将开关三相动触头的三端任意接到仪器三个公共端,如图12-7所示。图12-7 双断口九线制接法2.合、分闸信号线的连接合、分闸信号线的接线如图12-8所示。......
2023-06-27
相关推荐