首页 理论教育探析图像目标识别的两种思路

探析图像目标识别的两种思路

【摘要】:对于图像目标识别问题的研究,也是遵循着人的认知形式,总体上讲有两种思路,一种是自下而上的加工,另一种是自上而下的加工[13]。自下而上的视觉计算理论中,马尔模型[14]显然最具代表性,它在技术性和数学形式方面堪称精彩。马尔认为,视知觉是通过构建三种不同心理表征或素描进行的。

人类认知过程可以用图1-2描述[10]。不同视觉基本特征,如方位、方向、空间频率、眼优势、空间拓扑和颜色等在不同层次视觉皮层具有一定的空间组织形式,多种基本特征功能柱共存于一片皮层空间,实现多种特征表达的最优化;特异性反应细胞在高级与初级视觉皮层上进行自下而上的前馈和自上而下的反馈,完成视觉表征自下而上地逐级抽象,以及在整合后自上而下地反馈、对初级水平的调控;大脑自动建立基于皮层自组织的计算视觉模型[11,12]

对于图像目标识别问题的研究,也是遵循着人的认知形式,总体上讲有两种思路,一种是自下而上的加工(Bottom-up Process),另一种是自上而下的加工(Top-down Process)[13]。这两类处理方法有着各自的优点和缺点,将它们结合起来各取所长,就有可能实现更为理想的识别。

1.自下而上的加工

也被称为数据驱动(Data-driven)的加工,其核心观点是系统工作是单向的,从信息输入开始,一直到形成最终的解释。无论在特定的时刻发生什么都不受后面加工过程的影响,这种加工系统无法回到先前的阶段去调整[13]。反映在图1-1上,就是严格按照先后顺序,从低层开始处理图像上的数据,到中层处理将这些数据转化为抽象表征,到高层进行识别,其间各个模块互不相关。

自下而上的视觉计算理论中,马尔模型[14]显然最具代表性,它在技术性和数学形式方面堪称精彩。马尔认为,视知觉是通过构建三种不同心理表征或素描进行的。首先是原始素描,它以二维图像的方式描述相对明暗的区域和已经固定位置的几何结构,使得观察者能够分辨不同区域的边界,但无法“得知”这些视觉信息的“涵义”;然后建立一个更为复杂的表征,即2.5D素描,观察者利用阴影、纹理和边界等线索,获得关于该素描表面的信息,以及此刻它们在景深上与观察者的相对位置关系;马尔认为原始素描和2.5D素描所依据的都是数据驱动,只有在观察者最后构建视觉场景的三维素描时,有关现实世界或特定期望的信息(知识)才会被纳入进来。

这类方法的优点是便于工程实现,对单目标识别及复杂图像分析系统均适用,具有较强的代换性,现有许多系统在解决图像识别方面的问题时都遵循这一思路;缺点是在分割、标记、特征提取等处理过程中缺乏知识指导,盲目性大,因此在很大程度上局限了该方法的应用范围。

978-7-111-38182-2-Chapter01-3.jpg

图1-2 人类的认知过程

2.自上而下的加工

又称之为理论驱动(Theory-driven)或概念驱动(Conceptually Driven)的加工,知识理论或概念假设引导系统在识别过程中的信息选择和整合。其基本思想是利用先验知识为待识别问题建立模型,然后利用图像数据对模型的正确性进行验证,此类方法有坚实的数学理论基础,有许多数学工具可以使用,因此一直是理论界研究模式识别问题的主流方法。

先验知识可以通过专家总结、人为定义来得到,有了待识别目标的模型特点,就可以在图像中进行有针对性的检测和识别了。这种方法一般用于线状目标和形状规则的刚性目标的识别[1,15-17],如机场、道路、门窗等。但是人的很多先验知识很难用数学形式来表达,所以近年来随着机器学习技术被大量应用于机器视觉领域,用统计学习的方法获取隐含的知识模型已经成为了研究热点[18-22]

自上而下的加工方法,其优点在于底层处理是在知识指导下的粗匹配过程,可避免抽取过多不必要的特征集,提高算法效率,其精匹配过程也因而变得简单和有针对性。它的缺点是代换性和兼容性差,识别目标改变,知识和假设要随之而变。