首页 理论教育如何计算视觉单词的权重?

如何计算视觉单词的权重?

【摘要】:视觉单词权重用于衡量某个视觉单词(特征项)在目标表示中的重要程度或者区分能力的强弱。权重计算的一般方法是利用训练集样本的统计信息,主要是词频,给视觉单词赋予一定的权重。IDF方法的权重值随着包含某个特征的样本数量ni的变化呈反向变化,在极端情况下,只在一个样本中出现的特征含有最高的IDF值。本章使用的特征权重计算方法TF-IDF,该方法的公式有多种表达形式,TFC方法和ITC方法都是它的变种。

视觉单词权重用于衡量某个视觉单词(特征项)在目标表示中的重要程度或者区分能力的强弱。权重计算的一般方法是利用训练集样本的统计信息,主要是词频,给视觉单词赋予一定的权重。注意,“词频”以及后面提到的“文档频度”,都是在文本分类中产生的,在本章节中用图像目标相关的概念进行理解即可,不再特意进行替换。

本书参阅相关文献,将一些常用的权重计算方法归纳为表6-2所示的形式。表中各变量的说明如下;wij表示特征项ti在目标Tj中的权重,tfij表示特征项ti在训练样本Tj中出现的频度;ni是训练集中出现特征项ti的样本数,N是训练集中总共的样本数;M为特征项的个数,nti为特征项ti在训练样本中出现的次数。

表6-2特征权重的计算方法

978-7-111-38182-2-Chapter06-35.jpg

由于布尔权重(Boolean Weighting)计算方法无法体现特征项在文本中的作用程度,因而在实际应用中0、1值逐渐地被更精确的特征项的频率所代替。在绝对词频(Term Frequency,TF)方法中,无法体现低频特征项的区分能力,因为有些特征项频率虽然很高,但分类能力很弱(比如大多数目标共有的局部特征或背景特征),而有些特征项虽然频率较低,但分类能力却很强。

倒排文档频度(Inverse Document Frequency,IDF)法是文本分类中计算词与文献相关权重的经典方法,其在信息检索中占有重要地位。该方法在实际使用中,常用公式L+log ((N-ni)/ni)代替,其中,常数L为经验值,一般取为1。IDF方法的权重值随着包含某个特征的样本数量ni的变化呈反向变化,在极端情况下,只在一个样本中出现的特征含有最高的IDF值。

本章使用的特征权重计算方法TF-IDF,该方法的公式有多种表达形式,TFC方法和ITC方法都是它的变种。实际应用中,有一种比较普遍的TF-IDF公式:

978-7-111-38182-2-Chapter06-36.jpg

978-7-111-38182-2-Chapter06-37.jpg

TF-IWF(Inverse Word Frequency)权重算法也是在TF-IDF算法的基础上提出的,其不同之处在于:

1)TF-IWF算法中用特征频率倒数的对数值IWF代替IDF;

2)TF-IWF算法中采用IWF的平方来平衡权重值对于特征频率的倚重,不像IDF中采用的是一次方,给了特征频率太多的倚重。

此外,还有很多特征权重的计算方法,可以参阅文本分类的相关文献,这里不再一一列举。需要说明的是,权重计算方法与特征提取方法有着一定的关联,而很多文献引入的新的计算变量实质上都是考虑特征项在整个类中的分布问题。因此,需要进一步进行理论研究,获得更一般的有关特征权重确定的结论,而不是仅仅从不同的角度定义不同的计算公式。