首页 理论教育目标的向量空间表示模型方案介绍

目标的向量空间表示模型方案介绍

【摘要】:一个目标在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型的由来。下面结合目标的表示,给出其定义。,td};2)依据目标特征项序列,对训练集和测试集中的各个目标样本进行权重赋值、规范化等处理,将其转化为机器学习算法所需的模式向量。图6-2 目标的向量空间模型示意图

向量空间模型,又称特征包模型或词袋模型,是Salton等人[194]在20世纪70年代初提出的,最早用在SMART信息检索系统中,此后逐渐发展成为自然语言处理中常用的模型,近几年也被广泛应用在图像目标识别中。

下面给出VSM应用在图像识别领域的一些概念。

● 目标(Target):也称对象或物体,通常是图像中具有某种相似属性的同质区域,如图像分割产生的子区域、客观存在的具有某种物理或语义意义的实体直至整幅图像,参见图2-3,在本章节的论述中,对目标和图像的概念不加区分。

● 项/特征项(Term/Feature Term):特征项是VSM中最小的不可分的语义单元,可以是任意分割程度上的子区域。一个目标的内容被看成它含有的特征项所组成的集合,表示为Target=T(t1t2,…,tn),其中tk是特征项,1≤kn

● 项的权重(Term Weight):对于含有n个特征项的目标T(t1t2,…,tn),每一特征项tk都依据一定的原则被赋予一个权重wk,表示它们在目标描述中的重要程度。这样一个目标T可用它含有的特征项及其特征项所对应的权重所表示:T=T (t1w1t2w2;…;tnwn),简记为T=T(w1w2,…,wn),其中wk就是特征项tk的权重,1kn

一个目标在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型的由来。下面结合目标的表示,给出其定义。

定义6-1(向量空间模型)给定一个目标T (t1w1t2w2;…;tnwn),T符合以下两条约定:

1)各个特征项tk (1≤kn)互异(即没有重复);

2)各个特征项tk无先后顺序关系(即不考虑目标的内部结构)。

在以上两个约定下,可以把特征项t1t2,…,tn看成一个n维坐标系,而权重w1w2,…,wn为相应的坐标值,因此,一个目标就表示为n维空间中的一个向量。我们称T=Tw1w2,…,wn)为目标T的向量表示或向量空间模型,如图6-2所示。

定义6-2(向量的相似度度量)任意两个目标T1T2之间的相似系数Sim (T1T2)指两个目标内容的相关程度(Degree of Relevance)。设目标T1T2表示VSM中的两个向量:

978-7-111-38182-2-Chapter06-2.jpg

那么,可以借助n维空间中两个向量之间的某种距离来表示目标间的相似系数,常用的方法是使用向量之间的内积[129]来计算:

978-7-111-38182-2-Chapter06-3.jpg

如果考虑向量的归一化,则可使用两个向量夹角的余弦值来表示相似系数:

978-7-111-38182-2-Chapter06-4.jpg

采用向量空间模型进行目标表示时,需要经过以下两个主要步骤:

1)根据训练样本生成目标表示所需要的特征项序列T={t1t2,…,td};

2)依据目标特征项序列,对训练集和测试集中的各个目标样本进行权重赋值、规范化等处理,将其转化为机器学习算法所需的模式向量。

978-7-111-38182-2-Chapter06-5.jpg

图6-2 目标的向量空间模型示意图