时空域视频场景分割理论及应用

2023-11-23 理论教育版权反馈

【摘要】：场景分割就是按照视频序列中所描述的内容，将视频分成多个片段，每一个片段代表一个场景。

1.场景分割的定义

场景是镜头的集合，包含更丰富更完整的视觉信息，在视频序列中叙述了一个完整的视频内容。场景在同一环境中的一段时间内展示了一个事件。因此，场景包含事件、时间和环境3个属性，且在同一个场景中这3个属性基本是不变的，我们也可以将这3个属性归结为同一主题，即具有同一主题的视频片段为一个场景。

大多数文献中的视频时域分割是在视频镜头或其以下结构单元中进行的，然而人们在观看视频时，更加关注视频中描述的完整事件，因此基于场景的视频时域分割同样具有一定的现实意义。场景分割就是按照视频序列中所描述的内容，将视频分成多个片段，每一个片段代表一个场景。

2.场景分割算法

将一个视频序列分割成多个场景的方法有很多。文献[20]通过视觉上的相似性进行场景分割，他们定义了3个条件来判断帧是否属于同一场景：一是当前场景视觉内容与下一个场景视觉内容不同；二是在同一场景内的镜头在视觉上具有相似性；三是如果两个镜头A和B在视觉上相似，则其被判定为同一场景，且在A和B之间的所有镜头也都属于这一场景。下面我们将详细介绍常用的场景检测原理。

1）场景内镜头单元具有相似性

同一场景的事件、环境和时间是一致的，其所描述的主题也是一致的。同一逻辑单元内的镜头具有相同的语义特性，即相同的视觉、音频和文本内容。在视觉方面，因为同一逻辑单元内的镜头具有相同的环境，所以不同镜头具有相似的背景和前景目标，在视觉上是相似的；在音频方面，我们可以在同一个背景环境中找到相似的噪声，而且相同前景目标所发出的声音的特性也是相同的，所以其在音频上是相似的；在文本方面，因为同一场景内的镜头所描述的主题是相同的，不同镜头间所出现的关键字是相似的，所以其在文本上是相似的。

2）场景之间镜头单元具有不相似性

如果两个镜头具有相似的语义特性，那么它们属于同一逻辑单元，而相邻的逻辑单元之间的镜头具有不同的语义特性，否则它们属于同一逻辑单元。逻辑单元之间的不相似性表现为两个相邻逻辑单元内的镜头在视觉、音频以及文本上的不连续性。

3）场景边界具有标识符

逻辑单元通常具有较为固定的结构，靠近逻辑单元边界的镜头一般具有特定的作用。逻辑单元内的第一个镜头的作用通常是引入并介绍逻辑单元的主题，而最后一个镜头的作用是结束逻辑单元。例如，我们会使用新闻节目中主持人的镜头引入和结束一个新闻事件的报道，有时也会使用新闻节目主持人的暂时停止播报表示潜在的逻辑单元边界。

4）逻辑单元内具有连续标识符(www.chuimin.cn)

与场景边界使用具有特定功能的镜头相似，电影制作人使用相同的方法来标记逻辑单元内的连续性镜头，例如重复使用相同的镜头转换类型来标记镜头之间的连续性。例如，在一段视频中，连续3个以上的镜头之间的转换类型为淡入淡出，那么我们可以将这些镜头归为一个场景。如果连续3个或3个以上的简单镜头具有相同的状态，且是同一台摄像机拍摄的，那么我们可以将这些镜头归为同一个逻辑单元。

5）特定视频场景具有特定的结构

在一些特定的领域，视频是具有特定的结构和模型。新闻节目视频场景分割通常会利用它具有的特定结构的特性，一般先用第一个镜头引入新闻事件，然后对新闻事件进行详细报道。文献[21]详细描绘了新闻视频的具体模型。

6）是否将镜头判定为同一场景具有时间限制

本质上，在使用镜头相似性作为视频场景检测算法标准的同时，我们也对相似镜头之间的时间间隔做了限定。视频序列中的某一种相似性发生在一定的时间限制内，镜头A和镜头B相似，并且时间间隔短，则我们可以将A和B看作一个场景，如果镜头C与A、B也相似，但是与镜头A、B的时间间隔长，则C和A、B不属于同一场景。文献[22]采用时间窗口的方法，即设定一个一定长度的时间窗口，令时间窗口从第一帧开始滑动，如果在时间窗口内的两个镜头相似，则认为其属于同一场景。

7）时间连续性

在逻辑单元内部时间是连续的，不会出现一个逻辑单元将另一个逻辑单元一分为二的情况。如果镜头A和镜头B属于同一场景，那么A和B中间的所有镜头都属于这一场景。

3.现有方法的局限性

（1）每一种场景检测算法都具有其适合使用的特定视频类型，目前为止并没有一种场景检测方法可以同时应用于多种视频类型。

（2）现有方法并没有将镜头渐变转换类型作为场景检测的一项可以利用的信息，有大量数据集显示，镜头渐变转换类型与场景边界位置具有一定的关系。

时空域视频场景分割理论及应用

相关推荐