首页 理论教育有效方法:特征选择及其类型和优缺点

有效方法:特征选择及其类型和优缺点

【摘要】:特征选择的方法按照特征选择过程与分类器之间的交互程度可以分为过滤式、Wrapper[73]、嵌入式、混合式几种类型。在Wrapper方法中,特征子集的性能使用一个分类器在验证样本上的正确率来衡量,这样选择的特征比较适合该分类器,但不一定适合其他的分类器。由于在特征选择过程中要评价很多特征子集,即使采用顺序前向搜索,Wrapper方法的计算量都是很大的,只适合特征维数不太高的情况。

特征选择指对原始数据的特征进行筛选,保留那些对区分不同类别的必要特征,舍去那些对分类并无多大贡献的特征,使得最终的特征空间能够反映分类的本质。特征选择的方法按照特征选择过程与分类器之间的交互程度可以分为过滤式(Filter)、Wrapper[73]嵌入式、混合式几种类型。

过滤式特征选择是完全独立于分类器的,这也是最常见的一种特征选择方式,选择过程计算量小,但是选择的特征不一定很适合分类。在Wrapper方法中,特征子集的性能使用一个分类器在验证样本上的正确率来衡量,这样选择的特征比较适合该分类器,但不一定适合其他的分类器。由于在特征选择过程中要评价很多特征子集(子集的数量呈指数级增长),即使采用顺序前向搜索,Wrapper方法的计算量都是很大的,只适合特征维数不太高的情况。Wrapper方法的另一个问题是当训练样本较少时会造成过拟合,泛化性能变差。

嵌入式方法是在分类器的训练过程中包含了特征选择功能,因此跟Wrap-per方法一样也是依赖于分类器的。一个经典的方法是LASSO[74],近来有代表性的两种嵌入式方法是稀疏支持向量机[75]和Boosting特征选择[76]。混合式特征选择结合不同的方法以实现更好的计算复杂性-分类性能的折中,在初始特征数量非常大时经常使用,很多此类方法[77]在三个阶段先后用三种方法削减特征个数:过滤、聚类、组合式选择。过滤方法和Wrapper方法也经常结合使用。

特征选择领域大部分的研究工作都集中在过滤式方法。模式识别领域早期的工作多把关注点放在搜索策略上,特征子集评价准则多采用基于高斯密度假设的距离准则,如Fisher准则、Mahalanobis距离等。其实,特征子集的评价准则更为重要,当准则较好地衡量特征子集的可分性且比较稳定时,简单的搜索策略就能产生良好的分类性能。

特征选择常常面临着保留哪些描述量删除哪些描述量的抉择,信息论在这方面为图像识别提供了许多有用的方法[78-80],如图像频率(Image Frequency,IF)、χ2统计量(CHI)、术语强度(Term Strength,TS)、信息增益(Information Gain,IG)法和互信息(Mutual Information,MI)方法等。

基于图像频率的特征选择方法简单易行,可以在降低特征空间复杂度的同时去掉一部分噪声特征,但低频特征也可能带有很大的信息量,该方法直接去除低频特征会影响识别效果;χ2统计量度量特征和类别独立性的缺乏程度,优点是降维效果比较好,缺点则是统计花费大;术语强度的特点是基于目标聚类的方法,认为在相关目标中出现次数越多的特征具有信息量,这样可以去掉大部分无信息量或带有很少信息量的特征。

信息增益法[81]是依据某个特征项为整个分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定对该特征项的取舍。理论上讲,信息增益应该是最好的特征选择方法,但实际上由于许多信息增益比较高的特征出现频率往往较低,所以当使用信息增益选择的特征数目比较少时,往往会存在数据稀疏问题,此时识别效果也比较差。

互信息法的基本原则是选择类别相关的特征,同时排除冗余的特征。特征与类别之间的互信息很好地度量了特征的相关性,特征与特征之间的互信息则度量它们之间的相似性(冗余性)。因此,基于互信息的特征选择一般遵循这样一种模式:在顺序前向搜索中寻找与类别互信息最大而与前面已选特征互信息最小的特征项[82]文献[83]提出的条件互信息用来度量在一个已选特征的条件下另一个新的候选特征对分类的相关性。文献[84]通过分析一种相关度设计一种快速的两步特征选择方法。虽然Yang等人[85]数学的角度比较了信息增益法和互信息法,解释了实验结果的一些现象,但是,评价特征选择方法的标准并没有从理论上得到验证。