首页 理论教育CBIR的研究现状与未来发展

CBIR的研究现状与未来发展

【摘要】:QBIC系统使用的颜色特征是颜色直方图。目前,在这一研究领域已取得一些进展。

国内外的研究机构已经投入大量人力物力开展了基于内容的图像检索方面的广泛研究,并且研制出了一些商业系统和实验系统。常见的基于内容的图像检索系统包括由IBM T.J.Watson研究中心开发的颇具影响力的QBIC系统、由哥伦比亚大学研究开发的VisualSEEK和WebSEEK系统、由美国Virage公司开发的Virage系统、由美国MIT媒体实验室开发的Photobook系统、由美国斯坦福大学研制的SIMPLIcity系统等,近年来国内也有一些大专院校研究开发了基于内容的图像检索系统,如浙江大学开发了基于图像颜色的检索系统PhotoNavigator,并将基于颜色的图像检索技术较为成功地应用于敦煌壁画数据库的研究和开发,复旦大学研制出iFind系统等。

QBIC系统[2]是由IBM Almaden研究中心开发的第一个商品化的基于内容图像检索系统,它的系统框架、结构和技术对后来的图像检索系统有着深远的影响。QBIC系统支持基于例子图像、手绘略图、选择的颜色、纹理等的查询,不仅支持图像检索,还支持视频、文本和语音多种形式的信息检索。QBIC是少数几个考虑高维特征索引的系统。QBIC系统使用的颜色特征是颜色直方图。纹理特征采用粗糙度对比度和方向性描述。形状特征包括面积、圆形度、离心率、主轴方向和不变矩。颜色、纹理和形状均采用加权的欧式距离比较。

Virage[3]是由Virage公司开发的基于内容的图像搜索引擎。与QBIC相似,它支持基于颜色、颜色布局、纹理及结构的查询,但比QBIC更进一步的是它还支持上述四种特征的组合查询,用户可以根据自己的爱好调整这四种特征的权重。Virage技术的核心是Virage Engine以及在图像对象层上的操作。Virage En-gine主要有图像分析、图像比较和图像管理三方面的功能。它将查询引擎作为一个插件,既可以应用到通用的图像查询中,也可对其进行扩展并应用到特定的领域。

Photobook[4]是MIT多媒体实验室开发的用于浏览和搜索图像的一套交互式工具。Photobook包括三部分,形状提取部分、纹理提取部分及面部特征提取部分。它的人脸识别检索技术已被用于美国的警察机关。由于没有哪一种最好的特征能够单独地描述一幅图像,所以在Photobook的最新版本FourEyes中,Picard等人提出了把用户加入到图像注释和检索过程中的思想。同时由于人的感知是主观的,他们又提出了把“模型集合”和人的因素相结合。实验结果表明,这种方法对于交互式图像注释来说非常有效。

VisualSEEK[5]是基于视觉特征的检索工具,WebSEEK[6]是一种面向WWW的文本或图像搜索引擎。这两个检索系统都是由哥伦比亚大学开发的。它们的主要特点是采用了图像区域之间空间关系和从压缩域中提取的视觉特征。系统所采用的视觉特征是利用颜色集和基于小波变换的纹理特征。VisualSEEK同时支持基于视觉特征的查询和基于空间关系的查询。WebSEEK包括三个主要模块:图像/视频采集模块,主题分类和索引模块,查找、浏览和检索模块。相对于其他的多媒体检索系统,VisualSEEK的优点在于:高效的Web图像信息检索,采用了先进的特征抽取技术,用户界面强大,操作简单,查询途径丰富,输出画面生动且支持用户直接下载信息。而WebSEEK本身就是一个独立的万维网可视化编程工具,已经对650000幅图像和10000个影像片段进行了编目,用户可以使用目录浏览和特征检索方式进行图像检索。

基于内容的图像检索从理论上可以分为三个层次:特征语义,即利用图像的颜色、纹理和形状等低层特征及其组合进行检索;对象语义和空间关系语义,即需要利用导出的特征进行一定的逻辑推理,识别出图像中含有的目标;场景语义,行为语义和情感语义,涉及图像的抽象属性,需要对所描述的目标和场景进行高层语义推理。可以看出,当前大多数成型的图像检索系统都停留在第一个层次,如图5-9所示,预先按照某种方法提取出查询图像以及图像库中待检索图像的低层特征(如颜色、纹理、形状),待查询图像的低层特征形成一个特征库,然后把查询图像的特征与特征库中的特征进行匹配,以寻找相似的图像[192]

978-7-111-38182-2-Chapter05-15.jpg

图5-9 图像检索系统的结构流程(来源:杨红菊,2009年)

针对以上三个层面,基于内容的图像检索技术研究热点主要可以分为五个方面:

1.基于整体特征的图像检索

主要研究如何选择合适的图像整体特征描述图像内容和采用什么样的图像度量方法进行图像匹配。由于只是用图像的某些整体特征,不能完整地描述图像的内容,因此图像检索的准确率往往不高。

2.基于区域的图像检索

主要通过图像分割技术将图像进行划分,然后针对每个区域使用局部特征进行描述,综合区域的局部特征从而得到图像的总体特征,最后使用合适的相似性度量标准来检索图像。

3.基于图像语义的研究

相对于图像的颜色、纹理及形状等低层特征而言,语义特征属高层特征,具有主观抽象的特点,是研究的最终目标。目前基于语义特征的图像检索技术的主要研究内容是:如何从多种渠道获取图像语义信息;所获取的语义信息如何与图像低层特征结合;如何通过相关反馈技术在图像之间传递语义信息;以及如何将图像低层特征与图像的关键词结合进行图像的自动标注以提高图像检索的准确率等。

4.高维索引技术的研究

要想使CBIR系统得到实际的应用,那么对于大规模大容量的图像数据库中进行检索要解决的主要问题就是高维特征索引技术。目前提取的特征从几百维到几千维,要在整个数据库中对所有图像进行相似性度量变得不实际。最新的研究模型只能处理几百或几千幅图像,只有这样,在顺序扫描处理这些图像时才不至于严重影响系统的操作性能。目前,在这一研究领域已取得一些进展。例如K-D树,R-树、变种R+树、R∗树、VA-File等,但探索更加有效的高维索引技术仍是一个急需解决的问题。

5.相关反馈技术的研究

该技术基于人机交互的思想,以猜测用户需求为目的,并且根据用户的需求动态调整系统检索时所采用的特征向量或参与检索的不同特征的权重系数,从而尽量缩短减小低层特征和高层语义之间的差距,提高算法的检索结果。相关反馈最先由Rui Yong将其由文本检索领域引入到CBIR领域,此技术是最近几年CBIR研究的热点。为了把用户模型嵌入到图像检索系统,最近几年在CBIR领域引入了相关反馈与机器学习机制,将成熟的学习算法与图像检索中的在线学习过程(On-line Learning)结合起来以提高检索准确率。