首页 理论教育基于内容的服装图像情感语义识别和检索

基于内容的服装图像情感语义识别和检索

【摘要】:目前,将神经网络应用于图像识别的文献很多[1,2],但用于服装图像的情感语义识别和检索还几乎没有,而本章及第4、第5章正是采用了神经网络对男西装图像情感语义识别和检索问题进行了探讨。图3-1男西装图像样本神经网络训练和入库的流程图3-3男西装图像情感语义检索的流程BP神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。

为了实现基于内容的图像情感语义识别,需要建立图像低层特征到情感空间之间的映射。为了建立这个映射,首先需要计算机这台机器对图像样本数据进行学习,而神经网络是众多优秀机器学习方法之一。目前,将神经网络应用于图像识别文献很多[1,2],但用于服装图像的情感语义识别和检索还几乎没有,而本章及第4、第5章正是采用了神经网络对男西装图像情感语义识别和检索问题进行了探讨。

本章及第4、第5章在前期建立男西装图像情感因子空间和对男西装图像情感语义进行分析的基础上[3,4],采用神经网络技术进行机器学习,通过Visual C++图像编程对男西装图像情感语义的识别和检索进行了研究,取得了较好的识别效果,可以说在一定层次上缩小了男西装图像情感语义识别和检索的“语义鸿沟”。

图像具有多种图像的低层特征(如颜色),而机器学习的过程,就是建立图像特征与情感描述(本书采用情感因子作为中介)之间的映射,这个映射的过程可以采用神经网络的方法来完成。根据第2章的前期研究成果,本章及第4、第5章选用BP神经网络(Back-Propagation Network,简称BP网络)的方法来实现男西装图像低层特征到情感因子之间的映射。一张图像需要经过图像特征提取和机器学习的过程,就可以得到其情感因子值,再根据公式(2-1)就可算出其情感的定量描述值,进而实现图像的情感语义识别,然后利用情感相似度实现图像基于内容的情感语义检索。男西装的样本图像处理、新增图像的识别过程以及图像检索流程分别如图3-1、图3-2和图3-3所示。

图3-2 新的男西装图像情感语义识别和入库的流程

图3-1~图3-3中,因子得分系数矩阵的展开式见式(2-2),关于十维和七维的图像特征的详细分析和描述见文献[4]或第2章内容。建立图像低层特征与情感因子之间的映射过程,可以通过机器学习的方法来完成,在此我们选用了BP神经网络的方法实现。

图3-1 男西装图像样本神经网络训练和入库的流程

图3-3 男西装图像情感语义检索的流程

BP神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP神经网络模型拓扑结构包括输入层、隐层和输出层。BP网络及其改进形式被广泛应用在模式识别、信息分类及数据压缩等领域。

研究表明:带有两个隐层的BP网络能形成任何形状的决策区域。当BP网络用于非线性映射时,允许网络实现输入至输出之间的任意映射关系,即可建立图像低层特征与图像情感因子之间的某种映射关系。每当给出一幅男西装图像,计算其低层颜色特征值作为网络的输入值,通过训练好的BP网络就可计算出该图像情感的因子值,再由式(2-1)可计算出其情感描述值,从而可以实现男西装图像情感语义的自动识别。

对于数据库中的每一幅样本图像,根据被测者对男西装图像引发的五对情感语义词汇的评估均值,通过因子分析,可以转化为二维的情感因子空间中的一个向量。由于这个二维空间中的各个分量之间是正交独立的,所以可以定义某种距离来描述该空间样本点之间的差异程度。一幅图像就是情感因子空间中的一个样本,所以图像之间的情感语义相似度就可以使用该空间的距离测度来表示。

当前大多基于内容的图像情感语义检索系统都采用相似性度量算法来模拟人类视觉对图像相似性的感知。通常的思路是,给定两个特征向量,用一个距离函数计算这两个向量的差别,并试图用这个差别来度量它们所表示图像的相似性,距离越大,相似性越差。既然图像特征可表示为向量,距离函数经常被定义为欧式距离、街区距离、加权的欧式距离和Cosine距离等。参考各种距离的定义[5],本书图像情感因子的相似度度量函数可定义为[6]

式(3-1)中,a和b是两幅图像在情感因子空间的坐标,该式既反映了两个情感因子向量之间的夹角余弦距离,又反映了向量模的差距,在度量相似度方面比单纯的夹角余弦距离更为有效。该相似度最大值为“1”,最小值为“-1”。

计算出图像之间的相似度,就可以在图像情感因子空间中实现基于情感语义的男西装图像检索。本书按情感因子空间的相似度检索出来的图像,不是按照图像低层特征的相似性进行排序的,而是按照图像在高层情感上的相似度进行排序,将更为接近人的主观感觉[6,7]