首页 理论教育Marr视觉理论简介:视觉测量技术

Marr视觉理论简介:视觉测量技术

【摘要】:下面简要介绍Marr视觉理论的基本思想和框架。图1.1 Marr视觉信息处理的三个阶段第一阶段是早期视觉处理,其目的是从输入的原始图像中抽取观察者周围景物表面的物理特性,如距离、表面方向、材料特性等,并构成要素图或基元图。表1.2 由图像恢复形状信息的表达框架3.Marr视觉理论的意义及不足Marr视觉理论是计算机视觉研究领域的划时代成就。图1.2 改进后的Marr视觉理论框架限于历史等因素,Marr没有研究如何用数学方法严格地描述视觉信息的问题。

1977年,Marr教授首次从信息处理的角度综合了图像处理、神经生理学及临床神经病学等方面已经取得的重要研究成果,提出了第一个较为完善的视觉理论框架。虽然这个理论还需要不断改进和完善,但Marr视觉理论对人类视觉和计算机视觉的研究都产生了深远的推动作用。下面简要介绍Marr视觉理论的基本思想和框架。

1.Marr视觉系统研究的三个层次

Marr从信息处理系统的角度出发,认为对此系统的研究可以分为三个层次,即计算理论层次、表达与算法层次和硬件实现层次。

(1)计算理论层次

这一层次研究的是视觉系统的计算目的与计算策略是什么,或者视觉系统的输入、输出是什么,如何由系统的输入求出系统的输出。在这一层次上,视觉系统的输入是二维图像,输出则是三维物体的形状、位置和姿态。视觉系统的任务就是研究如何建立输入和输出之间的关系和约束,如何由二维图像恢复成物体的三维信息。

(2)表达与算法层次

这一层次进一步研究如何表达输入和输出信息,如何实现计算理论所对应的功能算法,以及如何由一种表示变换成另一种表示。

(3)硬件实现层次

这一层次解决用硬件实现上述表达与算法的问题,如视觉系统的计算机体系结构和具体的计算装置及其细节。

视觉系统研究的三个层次见表1.1。

表1.1 视觉系统的三个层次

978-7-111-34687-6-Chapter01-1.jpg

2.Marr视觉信息处理的三个阶段

Marr从视觉计算理论出发,将视觉系统分为自下而上的三个阶段,即视觉信息从最初的二维图像原始数据到最终三维环境表达经历了三个处理阶段,如图1.1所示。

978-7-111-34687-6-Chapter01-2.jpg

图1.1 Marr视觉信息处理的三个阶段

第一阶段是早期视觉处理,其目的是从输入的原始图像中抽取观察者周围景物表面的物理特性,如距离、表面方向、材料特性(反射、颜色、纹理)等,并构成要素图或基元图。基元图由二维图像中的边缘点、直线段、曲线、顶点、纹理等基本几何元素或特征组成。这一阶段包括边缘检测、双目立体匹配、由阴影确定形状、由纹理确定形状、光流计算等。第一阶段也称为低层视觉阶段。

第二阶段是中期视觉处理,它在以观测者为中心的坐标系中,由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等。根据这些描述,可以重建物体边界,并按表面和体积分割景物,但在以观察者为中心的坐标系中只能得到可见表面的描述,无法得到遮挡表面的描述,这还不是真正的物体三维表示。因此Marr称之为对环境的2.5维描述,即对环境部分的、不完整的三维信息描述,是以观察者为中心的坐标系中描述的部分三维物体形状和位置。第二阶段也称为中层视觉阶段。

第三阶段是后期视觉处理,用2.5维图中的表面信息建立适用于视觉识别的三维形状描述。这个描述与观察者的视角无关。也就是说,在以物体为中心的坐标系中,用各种符号和几何结构来描述物体的三维结构和空间关系。第三阶段也称为高层视觉阶段。表1.2简单总结了视觉处理三个阶段中的目的和特点。

表1.2 由图像恢复形状信息的表达框架

978-7-111-34687-6-Chapter01-3.jpg

3.Marr视觉理论的意义及不足

Marr视觉理论是计算机视觉研究领域的划时代成就。几十年来,它对图像理解和计算机视觉的研究发展产生了深远的影响。但它还不是一个完善的理论,因为它没有反映人类视觉的某些重要的本质和特征,即人类视觉的选择性和整体性,而且在实践中也遇到了严重困难。Marr视觉理论的不足之处主要表现为以下几点:

1)框架中的输入是被动的,给什么图像,系统就处理什么图像;(www.chuimin.cn)

2)框架中的加工目的是不变的,只能是恢复场景中物体的位置和形状等;

3)框架缺乏或未足够重视高层知识的指导作用;

4)整个框架中信息加工过程基本上是自下而上、单向流动、没有反馈的。研究发现,在生物视觉系统中有许多从高层传送信息的神经纤维,甚至视网膜上也有许多来自中枢的神经,给予支配信息。虽然上述反馈神经的确切作用尚不明确,但是可以证明视觉系统应该有反馈存在。

4.Marr视觉理论框架的改进

针对Marr视觉理论的不足,人们提出了一系列改进思路。

(1)人类视觉是主动的

人类视觉可根据需要改变视角,以帮助识别。主动视觉是指视觉系统可以根据已有的分析结果和视觉的当前要求,决定摄像机运动,以从合适的视角获取相应的图像。

(2)人类视觉是有选择的

人类视觉可以注视(以较高的分辨率观察感兴趣的区域),也可以对场景中的某些部分视而不见。

选择性视觉是指视觉系统可以根据已有的分析结果和视觉的当前要求,决定摄像机的注意点,以获取相应的图像。考虑到这些因素,在改进框架中增加了图像获取模块。该模块要根据视觉的目的选择采集方式。

(3)人类视觉可以根据不同目的进行调整

有目的的视觉也称为定性视觉,是指视觉系统根据视觉目的进行决策。例如辨别完整的恢复场景中物体的位置和形状等,还是仅仅检测场景中是否有某物体存在。在很多情况下,只需要定性结果就可以了,并不需要复杂性高的定量结果。因此在改进框架中,增加了视觉目的模块。

顺便指出,有一种相关的观点认为,Marr关于对场景先重建、后解释的思路可以简化视觉任务,但与人的视觉功能并不完全吻合。事实上,重建和解释并不总是串行的。

(4)人类视觉由高层知识指导

人类可在仅从图像获取部分信息的情况下,完全解决视觉问题,其原因是隐含地使用了各种知识。例如,借助计算机辅助设计(CAD)物体模型库资料,可获取物体形状信息,可帮助解决由单幅图像恢复物体形状的困难。利用高层知识可解决低层信息不足的问题,所以在改进框架中,增加了高层知识模块。

(5)人类视觉有反馈

人类视觉中前后处理是有交互作用的,尽管对这种交互作用的机理了解得还不充分,但高层知识和后期处理的反馈信息对早期处理的作用是重要的。从这个角度出发,在改进框架中增加了反馈控制流向模块。改进后的Marr视觉理论框架如图1.2所示。

978-7-111-34687-6-Chapter01-4.jpg

图1.2 改进后的Marr视觉理论框架

限于历史等因素,Marr没有研究如何用数学方法严格地描述视觉信息的问题。虽然他较充分地研究了早期视觉,但基本上没有论及对视觉知识的表达、使用和识别等。

近年来,有许多试图建立计算机视觉理论框架方面的研究。Grossberg宣称建立了一个新的视觉理论——表观动态几何学(Dynamic Geometry of Surface Form and Appearance)。它指出感知的表面形状是分布在多个空间尺度上的、多种处理动作的总的结果,因此2.5维信息是不存在的。从而向Marr视觉理论提出了挑战。

但Marr视觉理论使得人们对信息的研究有了明确的内容和较完整的基本体系,仍被看作是研究的主流。现在新提出的理论框架均包含它的基本成分,多数被看作是它的补充和发展。尽管Marr视觉理论在许多方面还存在争议,但至今它仍是广大计算机视觉工作者普遍接受的计算机视觉理论基本框架。