首页 理论教育特征变换方法及其在图像分类中的应用

特征变换方法及其在图像分类中的应用

【摘要】:特征变换是通过一种映射变换改造原特征空间,也就是说新的每一个特征是原有特征的一个函数。二维模式主成分分析[101]或判别分析[102]是近年提出的一种针对图像模式的特征变换方法。特征选择和特征变换都是为了达到维数削减的目的,在降低分类器复杂度的同时可以提高分类的泛化性能。

特征变换是通过一种映射变换改造原特征空间,也就是说新的每一个特征是原有特征的一个函数。传统的线性变换方法主要有主分量分析(Principal Component Analysis,PCA)[86,87]、独立分量分析(Independent Component Analy- sis,ICA)[88]、线性判别分析(Linear Discriminant Analysis,LDA)[89,90]

主分量分析的目的是寻找在最小均方意义下最能代表原始数据的投影方法,它通过KL变换得到互不相关的新特征分量,而且可以根据需要选取最主要的那部分,从而在降维的同时最大程度地保留了原始数据的信息;由于主分量分析假定数据集满足高斯分布,在非高斯分布的情况下常采用独立分量分析,而统计独立是比主分量分析所要求的不相关条件更加严格的条件,只有对于高斯随机变量,这两个条件才相同[31];相对前两种方法寻找的是用来有效表示的主轴方向,线性判别分析方法寻找的是用来有效分类的方向[52],该方法又叫Fisher判别分析,也是假设所有样本在总体上服从高斯分布,其目的是使子空间中类间离散度(Sb)和类内离散度(Sw)的行列式之比达到最大。另外,LDA提取的特征个数受到类别数的限制,而当训练样本数相对特征维数较小时,Sw为奇异,会带来很多计算上的问题。

由于非高斯分布、小样本问题的存在,特征变换也成为了近年来特征提取技术的一个热点,这方面工作主要可以分为以下几个方向:

1)针对小样本的线性特征提取方法;

2)类内协方差矩阵不同的情况下的异方差(heteroscedastic)判别分析;

3)非高斯分布下的特征变换方法;

4)局部空间特性保持的特征变换方法;

5)非线性特征变换方法;

6)二维模式特征变换方法。

小样本学习的一个典型例子是图像分类,如果直接用图像中所有像素点的值作为特征量,矢量的维数非常高,而每一类的样本数又很少。克服Sw奇异性的一个直接方法是正则化(regularized)判别分析[89],通过矩阵平滑使Sw变得非奇异。Fisherface方法则用PCA把特征维数从D降到N-MN是样本数,M是类别数)使Sw变得非奇异。但是,Sw的维数由D降到N-M会损失一些鉴别信息,而降到N-1维则不会有损失。而这时Sw仍然是奇异的,就需要从Sw的零空间(对应本征值为0)提取一些特征。与一般的LDA方法先对Sw对角化然后对Sb对角化相反,一种Direct LDA方法[91]先对Sb对角化后从变换后的Sw提取对应较小本征值的鉴别矢量。

对于类别协方差矩阵不同的情况异方差判别分析[92]方法可以得到比LDA更好的分类性能。对于非高斯分布或任意分布的情况,非参数判别分析是提取判别特征的一个基本思路,由此发展起来的方法还包括基于决策边界的判别分析。在不假设参数概率密度的情况下,也可以用分类性能准则直接对鉴别投影矢量进行优化,这样的准则如最小分类错误(MCE)和特征与类别之间的互信息[93]。对于每类样本为多模态分布的情况可以采用基于混合高斯密度的鉴别分析[94]

局部空间特性不变的特征变换方法借鉴了流形学习(Manifold Learning)的思想,目的是在子空间中保持样本点之间的相邻关系。流形学习的问题是只对训练样本进行投影,要推广到测试样本就需要用一个参数模型或回归网络来表示投影的过程。He等人[95]提出的局部性保持投影(LPP)方法通过优化一个局部性保持准则来估计投影矢量,可转换为矩阵本征值分解问题,LPP是一种非监督学习方法,被推广到监督学习和核空间;Yan等人[96]提出一种基于样本邻近关系分析的特征提取的统一框架,称为嵌入图(Embedded Graph),并在此基础上提出一种新的判别分析方法;另外,Isomap流形学习方法[97]也被推广到监督学习用于非线性特征变换。

几乎所有的线性特征投影方法都可以推广到核空间。Schölkopf等人[98]最先将核函数引入PCA,提出Kernel PCA(KPCA)方法;类似地,将核函数引入Fisher鉴别分析,提出了Kernel FDA(KFDA)方法[99];许多研究人员[100]在核空间中对PCA降维和FDA特征变换等技术进行深入分析,进而提出了许多算法,比如Kernel LPP和Kernel Direct LDA等。

二维模式主成分分析(2D-PCA)[101]或判别分析(2D-LDA)[102]是近年提出的一种针对图像模式的特征变换方法。这类方法直接在图像矩阵上计算协方差(离散度)矩阵,该矩阵的维数等于图像的行数或列数,计算起来简便多了。另外,矩阵投影到每个本征矢量得到一个矢量,而不是一个值,这样得到的特征值个数也远远多于LDA。在高维图像人脸识别实验中,2D-PCA和2D-LDA的分类性能分别优于PCA和LDA。二维变换方法实际上是基于图像行或列的变换方法,即对每一行或每一列分别投影得到特征,可以推广到基于图像块的投影。

在设计特征空间的初期阶段,应该尽量多地列举出各种可能与分类有关的特征,这样可以充分利用有用的信息。对此,Kanal曾经总结过经验:样品数N与特征数n之比应足够大,通常样品数N是特征数n的5~10倍[103]。但高维度特征向量对后面的分类器存在不利的影响,很容易出现模式识别中的“维数灾难”现象。而且,并不是所有的特征项对分类都是有利的,很多提取出来的特征可能是噪声。因此,如何降低特征向量的维数,并尽量减少噪声,仍然是特征空间优化的两个关键问题。

特征选择和特征变换都是为了达到维数削减的目的,在降低分类器复杂度的同时可以提高分类的泛化性能。两者也经常结合起来使用,如先选择一个特征子集,然后对该子集进行变换。近年来为了适应越来越复杂(特征维数成千上万,概率密度偏离高斯分布)的分类问题的要求,不断提出新的特征空间优化方法,形成了新的研究热点。