首页 理论教育视频运动片段分割:时间特征探讨

视频运动片段分割:时间特征探讨

【摘要】:相邻帧之间的特征指图像的特征,包括物理层特征和高层语义特征。

视频是由帧在时间上的有序排列形成的流体结构,因此视频不仅具有每一帧内的空间特征,还具有帧之间关系以及帧随时间变化的时间特征,主要表现为帧间差异、光流场和运动特征3个方面,下边将对这3个特征进行详细介绍。

2.1.2.1 帧间差异

帧间差异主要是指用相邻帧之间的特征差异来表示视频的时间特征,进而利用视频的时间特征对视频进行分析和处理。相邻帧之间的特征指图像的特征,包括物理层特征和高层语义特征。例如,本书第4章可以利用相邻帧之间颜色特征差异的大小来进行视频镜头边界的检测(利用相邻帧之间直方图的差异来判断帧之间的相似性,进而判断镜头之间的相似度),也可以利用边缘特征的差异来判断帧内物体的运动等。下面详细介绍图像序列差分法,其利用帧间差异来检测帧内运动目标的运动。

图像序列差分法的基本思想是,如果在一幅图像的某一位置物体发生变化,那么该位置的灰度也将发生变化,而物体没有发生变化的部分,其灰度不发生变化或发生很小变化。该方法只需比较序列图像中相邻两幅图像的对应像素灰度的差别,相当于对图像序列进行了时间域上的高通滤波。最简单的算法是计算帧差绝对值。对于检测图像区域S,运动报警的判定条件为

式中,Sc(i,j,t)为亮度图像序列在t时刻点(i,j)处的灰度值;gth为某个灰度阈值

这种算法实现简单,程序设计复杂度低,易于实现实时监控;相邻帧的时间间隔较短,受目标阴影的影响也不大,对动态环境有较好的适应性。但其最大的缺点是对光照、雨雪变化敏感,若光照变化剧烈或者场景有雨雪,则效果欠佳。考虑图像光照条件的变化,改进判定条件,添加对整体光照敏感的项,改进的判定条件为

式中,λ为抑制系数;NS为检测区域S内的像素数量。

和式(2-1-2)相比,判别条件式(2-1-3)的右边添加了一项

在假定检测区域的像素足够多的前提下,如果图像光照变化较小,添加项的值趋近于零,则式(2-1-3)近似于式(2-1-2)。如果图像光照变化明显,则添加项有明显增大,在取值适当的情况下,添加项大于判别条件式(2-1-3)左边,导致式(2-1-3)判定条件不成立,那么判断其为没有运动,这样就有效抑制了光照变化带来的影响。

2.1.2.2 光流场

光流场是被观测空间运动物体表面上像素点运动的瞬时速度场。光流场是通过二维图像表示物体点三维运动的速度场。光流场反映相邻帧之间的关系,它的基本思想为:在空间中运动可以由运动场描述,而在一个图像平面上,物体的运动往往是通过图像序列中不同图像灰度分布的不同体现的,因此将空间中的运动场转移到图像上表示为光流场,换句话说它是空间运动物体在观察成像平面上像素运动的瞬时速率,反映图像上每一点灰度的变化趋势,是利用图像序列中像素在时间域上的变化以及相邻帧之间物体运动信息的一种方法,也是一种对真实运动场的近似估计。

光流场计算基于如下2个假设。

(1)任何物体点所观测到的亮度是恒定不变的。(www.chuimin.cn)

(2)图像平面内的邻近点以类似的方式进行移动(速度平滑性约束)。假设有一个连续的图像,f(i,j,t)表示在t时刻坐标(i,j)处的灰度值,将动态图像序列表示为关于位置和时间的函数,并进行泰勒公式展开为

式中,fi,fj,ft分别表示f的偏导数

速率估计公式为

式中,分别为前一时刻在像素点(i,j)处u、v的邻域平均值。

由上述速率估计公式可知其估计过程是一个并行的迭代过程,迭代多次后速率才能达到收敛,相当费时,难以满足应用实时性的要求,同时高阶项在多数情况下并不会完全消失,因而忽略它将导致估计误差。另外,由于噪声、多光源、阴影、透明性和遮挡性等,计算出的光流场分布不是十分可靠和精确的。

2.1.2.3 运动特征

对于一个视频片段来说,运动信息是反映视频中变化演进的重要信息,如要对视频内容进行全面的刻画,则运动信息是必不可少的一个方面。图像是由三维场景在二维平面投影产生的,这种投影是三维运动在图像平面的透视投影或正交投影

在描述视频内容时,通常把视频中的内容分为前景和背景,前景一般指视频中的物体,背景的运动一般反映摄像机的运动。因此,视频序列的运动分析也常把运动信息分为背景运动信息和前景运动信息。背景运动是由摄像机的运动形成的镜头内所有像素点的整体移动,被称为全局运动或摄像机运动。而前景运动是指被拍摄物体在场景中的运动,被称为局部运动。因此视频中的运动主要包括全局运动和局部运动。人们理解的视频运动内容,通常是前景物体运动。在对视频数据进行运动分析时,通常将摄像机移动形成的运动信息和主场景中物体产生的运动信息分开处理。全局运动具有整体性,可以用一组很少的模型参数来表示,而局部运动比较复杂,计算量大,结果不够稳定,只在小范围内表现出一定的一致性,用比较精细的方法才能表示。另外物体各点的运动是由全局和局部运动叠加而成的,为了正确提取局部运动信息,就必须估计全局运动信息,并在对局部运动进行分析时将它的影响去除。

运动估计的方法有全局运动估计、基于像素点的运动估计、基于块的运动估计、基于运动区域的运动估计和基于网格的运动估计。块匹配运动估计因算法简单、便于硬件实现得到了广泛应用,下面对块匹配算法进行重点介绍。

块匹配算法的基本思想是将图像序列的每一帧分成许多互不重叠的宏块,并认为宏块内所有像素的位移量都相同,然后对每个宏块到参考帧某一特定搜索范围内根据一定的匹配准则找出与当前块最相似的块,即匹配块,匹配块与当前块的相对位移即为运动矢量。常见的运动估计匹配准则有3种,即MAD、MSE和NCCF,分别为

上几式中,fk(m,n)为第k帧,第m行n列的宏块;fk-1(m+i,n+j)为第k-1帧对应块,且图像被分为了M×N个宏块。由于MAD没有乘除操作,实现简单方便,所以使用较多。通常使用求和绝对误差(SAD)代替MAD,即

如果匹配准则MAD、MSE、NCCF或者SAD的值小于一定的阈值,则匹配成功。