首页 理论教育信息论特征选择方法:从理论到实践

信息论特征选择方法:从理论到实践

【摘要】:解决“维数灾难”现象是模式识别领域的一个非常重要的任务,因为提取出的原始特征往往数量庞大,不仅增加了计算复杂度,而且很大程度上影响了分类器的设计及其性能。显然,前者受到太多的条件限制不是很实用,而后者则是当前模式识别领域的研究热点。本书的2.4.1节对这些方法的特点也做了相应评述,基于这些分析以及目标分类的具体应用特点,本章分别采用了信息论中的信息增益法和互信息法对图像特征进行筛选。

解决“维数灾难”现象是模式识别领域的一个非常重要的任务,因为提取出的原始特征往往数量庞大,不仅增加了计算复杂度,而且很大程度上影响了分类器的设计及其性能。这就需要从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的,这个过程叫做特征选择或特征压缩。

最简单的特征选择方法是根据专家(相关领域的科研人员)的知识挑选出那些对分类识别最有影响的特征;另一个可能则是用统计学信息论的方法进行筛选比较,来找出最有分类信息的特征。显然,前者受到太多的条件限制不是很实用,而后者则是当前模式识别领域的研究热点

目前已有的特征选择方法比较多,其中基于图像频率的特征选择方法简单易行,可以在降低特征空间复杂度的同时去掉一部分噪声特征,但低频特征也可能带有很大的信息量,该方法直接去除低频特征会影响识别效果;χ2统计量度量特征和类别独立性的缺乏程度,优点是降维效果比较好,缺点则是统计花费大;术语强度的特点是基于目标聚类的方法,认为在相关目标中出现次数越多的特征具有信息量,这样可以去掉大部分无信息量或带有很少信息量的特征,但在图像目标分类的实验中效果不是很好。本书的2.4.1节对这些方法的特点也做了相应评述,基于这些分析以及目标分类的具体应用特点,本章分别采用了信息论中的信息增益(IG)法和互信息(MI)法对图像特征进行筛选。