视频检索：从大量视频数据中快速定位所需片断

2023-11-01 理论教育版权反馈

【摘要】：视频检索就是要从大量的视频数据中找到所需的视频片断。图6-7视频检索系统的基本构成视频数据是一个非结构化的二维图像流序列。在基于内容的视频检索中，采用相似性度量对视频进行近似匹配，基于关键帧特征、或是基于镜头动态特征、或是将二者相结合进行查询。对于视频来说，浏览与有明确目的的检索同样重要。通过对STG的化简，可以去掉不重要的镜头，得到视频的紧凑表示。

视频检索就是要从大量的视频数据中找到所需的视频片断。传统的视频检索通过快进或快退等方法进行人工查找，不仅耗时而且非常烦琐。这显然无法满足巨容量的多媒体数据库的要求。而用户则希望只要给出例子或是特征描述，系统就能自动检索到所需的视频片断点，即实现基于内容的视频检索。

视频检索系统的基本构成如图6-7所示。

图6-7　视频检索系统的基本构成

视频数据是一个非结构化的二维图像流序列。要实现基于内容的视频检索，首先必须对这种非结构化的图像流进行处理，使之成为结构性的数据，继而提取各种特征。基于内容的视频处理包括视频结构的分析、视频数据的自动索引和视频聚类。视频结构的分析是指通过镜头边界的检测，把视频分割成基本的组成单元——镜头，视频数据的自动索引包括代表帧的选取及静止特征与运动特征的提取，形成描述镜头的特征空间，然后依靠这个特征空间来进行镜头内容的比较；视频聚类就是根据这些特征研究镜头之间的关系，也就是如何把内容相近的镜头组合起来，缩小检索范围，提高检索效率。

提取视频图像特征后，还要建立基于视频特征的索引；索引是对特征库的快速访问，对于特征库中每个数据项，索引项包含关键属性值及可能直接访问该数据项的指针。通过索引，就可以进行基于内容的视频检索和浏览了。基于内容的检索是一个近似匹配，逐步求精的循环过程，主要包括初始查询说明、相似性匹配、返回结果、特征调整等步骤，直至获得用户满意的查询结果。在基于内容的视频检索中，采用相似性度量对视频进行近似匹配，基于关键帧特征、或是基于镜头动态特征、或是将二者相结合进行查询。这一查询过程可以迭代，通过人机交互，以系统可以接受的反馈重新搜索，从而得到更加满意的检索结果。

对于视频来说，浏览与有明确目的的检索同样重要。浏览需要视频具有在语义层次上的表示，有学者提出了场景转换图（State Transition Graph，STG）的概念，以一个有向图的节点表示场景，边表示时间上的转换。通过对STG的化简，可以去掉不重要的镜头，得到视频的紧凑表示。由于单纯从图像中获得语义信息非常困难，也有学者提出了综合采用视频中的图像、语音及文字信息的方法。(www.chuimin.cn)

视频浏览一般采用分层结构和集束分类技术。分层浏览提供对视频任何点的随机存取，显示空间以镜头的代表帧表示，从而提供长视频内容的快速总览和存取。为了支持基于分类的浏览，需要使用集束算法，一般采用分层的集束算法。用关键帧和镜头特征对镜头进行集束分类，每一类别由相似内容的一组镜头组成。集束分类后，每类镜头用一个图标表示，显示在分层浏览器的高层上。这样，用户就可以大致知道每个镜头的内容，而不需要进入下一层次。

视频流由成千上万的图像帧组成，帧是组成视频的最小单位，如果对每一帧都进行单独处理，则索引和检索的效率会很低。幸运的是，视频通常是由大量的逻辑单位或分块组成，称这些分块为视频镜头。一个镜头是相邻帧的短序列，它描绘一场景，表示一个摄像机动作，一个事件或连续的动作。任何视频都是由镜头衔接起来的，镜头是视频检索的基本单元。此外，还可把语义上相关和时间上相邻的若干组镜头组成一个场景，它能表达视频所蕴含的高层抽象语义。

视频结构化过程就是把一个视频帧序列流按情节的发展分成若干段，这些段可分成若干级的层次结构，分别建立索引。一般视频数据可分成视频、场景、镜头、关键帧几个层次。用户可以通过浏览视频目录，快速了解整段视频的内容，而不用顺序浏览所有的图像帧序列。

基于内容的视频检索包括很多技术，如视频结构的分析（镜头检测技术）、视频数据的自动索引和视频聚类。视频结构的分析是指通过镜头边界的检测，把视频分割成基本的组成单元——镜头，视频数据的自动索引包括关键帧的选取和静止特征与运动特征的提取，视频聚类就是根据这些特征进行的。

视频检索：从大量视频数据中快速定位所需片断

相关推荐