首页 理论教育训练样本个数对模型性能的影响:稳健性分析

训练样本个数对模型性能的影响:稳健性分析

【摘要】:为了评估本章方法对训练样本个数的稳健性,本节在KTH-TIPS纹理库上进行实验,分别从每个纹理类别随机选择N = 个样本作为训练数据,每个纹理类别剩下的个样本作为测试数据。表4-3不同训练样本个数对应的纹理识别精度(%)从表4-3可以看出,和其他参与对比的算法相比,本章提出的方法对训练样本个数的变化具有更好的稳健性。当训练样本的个数N不断减少时,其他算法的纹理识别精度都出现了大幅度下降。

为了评估本章方法对训练样本个数的稳健性,本节在KTH-TIPS纹理库上进行实验,分别从每个纹理类别随机选择N = (40, 30, 20, 10)个样本作为训练数据,每个纹理类别剩下的(81-N )个样本作为测试数据。同时,为了获得稳定的实验结果,对每个确定的N值,将KTH-TIPS纹理库对训练数据和测试数据的划分随机进行100次,每次划分独立进行一次实验,即一共独立进行100次实验,然后计算这100次独立实验的平均纹理识别精度,将其作为最终的纹理识别精度,并将本章方法的实验结果与其他一些方法在不同训练样本个数情况下的纹理识别精度进行比较,具体的实验结果如表4-3所示。

表4-3 不同训练样本个数对应的纹理识别精度(%)

从表4-3可以看出,和其他参与对比的算法相比,本章提出的方法对训练样本个数的变化具有更好的稳健性。当训练样本的个数N不断减少时,其他算法的纹理识别精度都出现了大幅度下降。例如,当训练样本的个数N从40减少到10时,其他算法的纹理识别精度都下降到86%以下,下降幅度基本都超过12%;而本章方法的纹理识别精度下降幅度最小,识别精度一直保持在92%以上,当训练样本的个数N从40减少到10时,本章方法纹理识别精度的下降幅度小于7%。

本章方法对训练样本个数的变化能够获得更好的稳健性,主要原因如下:

(1)本章方法选择在多个半径R=[1, 3, 5]上执行DDT-CLBP算法,能够同时捕获宏观(对应大的半径R)和微观(对应小的半径R)的丰富纹理特征,所提取的纹理特征具有更强的鉴别能力。

(2)本章方法利用多次高斯滤波为每个原始的纹理图像构建了一个多尺度图像空间,然后用多尺度图像空间中的三个图像来描述一个原始纹理图像的特征,相当于样本个数变为原来的3倍,从而弥补了训练样本个数减少带来的不足之处。

从上述分析可以看出,本章方法具有更好的应用前景,尤其当可利用的训练样本个数有限时,本章方法仍能提取更具鉴别力的纹理特征,从而获得更高的纹理识别精度。