首页 理论教育基于信息增益法的特征选择方法

基于信息增益法的特征选择方法

【摘要】:利用信息增益法选择特征,是依据某个特征项ti为整个分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定对该特征项的取舍。对此的改进方法是,首先对训练集中出现的每个特征项计算其信息增益,然后指定一个阈值,从特征空间中移除那些信息增益低于此阈值的特征项;或者指定保留的特征项个数,按照增益值从高到低的顺序选择特征项组成特征向量。

利用信息增益法选择特征,是依据某个特征项ti为整个分类所能提供的信息量多少来衡量该特征项的重要程度,从而决定对该特征项的取舍。某个特征项ti的信息增益是指有该特征或没有该特征时,为整个分类所能提供的信息量的差别,其中,信息量的多少就用熵来衡量。可以计算出不考虑任何特征时目标的熵以及考虑该特征后目标的熵,并将两者之间的差值定义为信息增益:

IGti)=HT)-HTti

其中,PCj)表示Cj类目标在样本集中出现的概率,Pti)表示样本集中包含特征项ti的目标的概率,PCjti)表示目标包含特征项ti时属于Cj类的条件概率,P978-7-111-38182-2-Chapter06-23.jpg)表示样本集中不包含特征项ti的目标的概率,PCjti)表示目标不包含特征项ti时属于Cj类的条件概率,M表示类别数。

从信息增益的定义可知,一个特征的信息增益实际上描述的是它包含的能够帮助预测类别属性的信息量。从理论上讲,信息增益应该是最好的特征选择方法,但实际上由于许多信息增益比较高的特征出现频率往往较低,所以当使用信息增益选择的特征数目比较少时,往往会存在数据稀疏问题,此时识别效果也比较差。对此的改进方法是,首先对训练集中出现的每个特征项计算其信息增益,然后指定一个阈值,从特征空间中移除那些信息增益低于此阈值的特征项;或者指定保留的特征项个数,按照增益值从高到低的顺序选择特征项组成特征向量