首页 理论教育基于特征的行为识别实验:Weizmann和KTH数据库测试

基于特征的行为识别实验:Weizmann和KTH数据库测试

【摘要】:利用前述的特征,在Weizmann行为数据库和KTH行为数据库上进行了实验测试。实验包括分类测试、特征贡献测试和鲁棒性测试。表7.1本章方法与近期相关方法比较续表本章的测试程序用Matlab实现。另外的测试表明处理“弯腰”视频的一帧需0.74s。利用子集进行识别测试,测试精度结果显示如图7.6所示。表7.2在特殊“走”行为视频上的精度测试结果在KTH行为数据库上的测试。

利用前述的特征,在Weizmann行为数据库和KTH行为数据库上进行了实验测试。实验包括分类测试、特征贡献测试和鲁棒性测试。实验结果也与现有相关的研究结果做了比较。

(1)在Weizmann行为数据库上的精度测试。在Weizmann行为数据库上的每种行为有9个人表演,10种行为,90个视频。因为测试表明长度为15左右的视频段足以区分其中的行为,所以90个视频被划分为更多的视频段。首先计算连续视频帧的差分,再从连续的差分帧计算光流,每生成15长度的光流序列则划分为一段,从中提取前述特征获得28×15的特征数据。人的运动是对称的,例如:从左边走向右边和从右边走向左边,或者挥左手和挥右手等,为了获得更多的训练数据,将特征左右对称翻转获得双倍的数据。

测试仍遵循留一测试,仍利用HMM进行建模。利用高斯混合模型,模型数设为3,隐藏状态数设为2。一次测试中对每种行为保留一个特征序列(28×15的特征数据),同行为的其他序列作为训练数据建立HMM模型;获得10个模型后,对保留的10个序列进行测试,得到测试精度。为了减少随机因素的影响,做了100次测试,平均精度达到97.2%,其中细节如图7.5所示的混淆矩阵。从中可以到“Run”与“Skip”混淆较多,同时也可以看到这两个差分序列也很相似。

图7.5 100次测试的混淆矩阵

表7.1中显示了本章方法与近期方法的比较,所有测试结果均是在Weizmann行为数据库上获得的。本章方法测试精度不是最好的,但与其他方法的结果是有可比性的。本章方法的所有特征数据均来源于差分序列,并且特征数目也较少。另外,比如Saad Ali的方法中借助PCA进行降维操作,在Moshe Blank的方法中需要精确的轮廓特征来解Poisson分布方程。

表7.1 本章方法与近期相关方法比较

续表

本章的测试程序用Matlab实现。运行的计算机CPU频率1.73GHz,内存4GB。处理一段包含42帧的“跑”的视频用时58.14s,过程包括求差分、计算光流和提取特征数据。也就是说处理一帧的时间是1.38s。另外的测试表明处理“弯腰”视频的一帧需0.74s。利用获取的10个HMMs,识别一个特征序列的时间是0.017s。

(2)在Weizmann行为数据库上的特征贡献测试。为了测试不同特征对行为识别的贡献,将特征数据划分开,形成不同成分的子集。利用子集进行识别测试,测试精度结果显示如图7.6所示。x轴显示特征组合,y轴显示对应识别测试的精度。可以看出,只利用表观特征就可以达到全部特征的识别精度97.2%。似乎从光流场中提取的运动特征对行为识别精度没有贡献,不过接下来的实验结果中就可以看到运动特征对识别过程的鲁棒性的贡献。

图7.6 不同特征组合的子集在Weizmann行为数据库上测试精度

(3)在Weizmann特殊行为数据库上的鲁棒性测试。在Weizmann行为数据库中有一些特殊动作的“走”的视频。这些视频有两类,一类是“走”在水平方向不同视角的视频,角度有0°,5°,10°,15°,20°,25°,30°,35°,40°,45°;另一类是非常规“走”的视频,例如:走的时候,后面跟一个狗(_dog),走的时候,有一个箱子遮蔽了脚(_nofeet)等。利用前述正常“走”的视频特征训练HMM模型,利用这两类特殊“走”视频特征进行测试。测试时,将特征集划分为表观特征(m13~m28)、运动特征(m1~m12)和全部特征(m1~m28),测试结果如表7.2所示。

测试结果表明,运动特征表达行为的鲁棒性优于表观特征,将两类特征联合起来后,运动特征的鲁棒性一般可以保留下来。

表7.2 在特殊“走”行为视频上的精度测试结果

(4)在KTH行为数据库上的测试。KTH行为数据库是另一个在行为分析领域中应用较广泛的数据库[146]。第5章的实验测试也采用的是这个数据库。其中的视频有6种行为,分别是:boxing、handclapping、handwaving、jogging、running和walking。每个行为有25个人表演,表演的背景有4种情况,分别是不同服装、背包、光线变化和视角缩放变化,所以这个数据库是可以测验方法鲁棒性的视频。利用本章的方法进行行为识别测试,结果如图7.7所示。

如表7.3所示显示了本章方法与近期其他方法识别精度的对比。可以看出,本章方法的识别精度与其他方法是相当的。当然,如果在方法中增加精细的去噪过程会提高识别精度,因为观察视频直接计算得到的差分图像,可以看到明显的噪声。

图7.7 在KTH数据库上的测试结果

表7.3 在KTH视频数据库上的识别精度对比

当然,Weizmann和KTH均是流行的行分析数据库,一些方法在其上的测试已经达到了很高的精度[179,180,195,196],文中表7.2与表7.3中选择的对比方法与本章方法是有一定可比性的。例如:Rahman等人的方法在KTH上的测试精度达到了94.67%,但是其测试只选择了KTH视频中“情景1”的子集,这个子集是全部视频中噪声最小的[195],因此与我们的方法的结果不具有可比性。