首页 理论教育虚拟现实运动捕获设备与数据格式

虚拟现实运动捕获设备与数据格式

【摘要】:图5-1运动捕获设备[4]Vicon 8系统是典型的光学运动捕获装置,主要包括有四大部分:①24个数字CCD照相机阵列;②红外光源;③标记点小球;④数据编辑软件。图5-2原始运动捕获数据的骨骼模型机电式运动捕获系统包括传感器、机械传动装置等。目前,运动捕获数据格式主要包括BVH、BVA、CSM、BIP、TRC、AMC、ASF、C3D、TVD等。Mikic等[6,7]实现了一个基于体素的运动捕获的系统,从6个摄像机的同步视频中提取轮廓线来重建人体的3D体素数据,

运动捕获技术(motion capture)是一种高级动画技术,在演员进行运动动作时,捕获其主要关节的运动轨迹,可实现人物运动信息记录自动化,产生运动的基本轨迹,然后将记录的运动信息传递给动画模型,达到控制其运动的目的。通过运动捕获获得一个真实的原始运动作为原型,可以避免为人体运动构造一个复杂的物理仿真模型的困难,而只需要修改运动数据以符合新的角色或场景等要求,并注意保持原有运动的特色,就可以创建逼真和自然的人物角色运动。

1)运动捕获及设备

运动捕获可以定义为[3]:利用照相机摄像机或其他运动捕获系统将人或动物的(关节)运动状态序列,真实地记录、保留下来,以便分析、处理和利用。运动捕获技术广泛运用于娱乐、医学、体育、司法等行业,尤其是在计算机动画制作中发挥特别重要的作用。

在运动捕获技术的发展历史上,有三个先驱者做出了开创性的贡献[3]。第一位是Eadweard Muybridge(1830—1904年)。他于1872年拍出了世界上第一个运动序列照片,并从中发现马可以四蹄悬空;1884—1885年,他拍摄了包含20 000张人与动物的各种运动的照片。第二位是Etienne-Jules Marey(1830—1904年),他是一位法国医生,同时又是发明家和摄影家。他的主要功绩是首次运用视频的方法来分析人和动物的运动,发明了连续照相法并且第一次成功拍摄了鸟的飞翔。第三位是Harold Edgerton(1903—1990年),MIT的一位学者。他的主要贡献是发明了频闪观测仪和电子闪光灯。他还是高速照相的先驱,他拍摄的“奶滴与皇冠”和“洞穿苹果的子弹”是摄影史上的经典作品。

运动捕获硬件早已告别了早期的照相机,获得了巨大的发展。当前的运动捕获硬件系统按传感器和感应源放置的位置(以捕获对象的身体为参照)分为三大类:①光学运动捕获系统;②电磁式运动捕获系统;③机电式运动捕获系统(见图5-1)。

图5-1 运动捕获设备[4]

Vicon 8系统是典型的光学运动捕获装置,主要包括有四大部分:①24个数字CCD照相机阵列;②红外光源;③标记点小球;④数据编辑软件。其基本原理是:红外光源照射到包含涂料的标记点,形成反射,为相机所捕获,经过处理可以得到位置信息。其优点是:①捕获数据精确;②标记点的位置和数量没有限制;③表演者没有缆线的束缚,可以有更大的活动空间;④捕获频率高。它的不足之处是:①硬件成本在三类捕获设备中是最高的;②捕获数据需进行大量的后期处理;③捕获环境对光的要求苛刻,不能有黄色光源和反射光的干扰;④如果捕获时间长,捕获的动作复杂,容易造成标记点的闭塞。

电磁式运动捕获系统的典型系统配置包括1个电磁发射器、11~18个电磁感应器和1个电子控制装置。它的捕获频率是144幅/秒。其基本原理是首先由发射器产生一个低频的电磁场,然后由感应器将感应的电磁信号输入到电子控制装置,经过处理,转换为三维位置数据。

电磁式捕获系统的优点有:①速度达到实时性要求;②捕获数据无需后期处理即可直接应用;③价格相对便宜;④感应器不会闭塞。它的不足之处是:①捕获场所若存在金属物体,则需要校正;②表演者受到线缆的束缚;③标记点的配置难以更改;④捕获区域要小。

图5-2 原始运动捕获数据的骨骼模型

机电式运动捕获系统包括传感器、机械传动装置等。其基本原理是由机械装置来传递人体的运动信号,并由放置在人体主要关节处的电位计或角度测量仪来感应关节角度。这类系统的优点有:①捕获范围极大;②在三种类型的捕获设备中,价格比较便宜;③实时数据收集;④感应器不会闭塞;⑤可以同时捕获多个表演者的互动。其不足之处有:①捕获频率低;②硬件笨重,束缚表演者的活动;③感应器配置固定;④通常只能捕获关节角度的变化,而不能捕获空间位置的变化。

运动捕获的过程是,首先请表演者按照动画师的要求,模仿动画设计中的人物角色进行表演,然后使用运动捕获设备采集人物各关节的运动位置信号;并且针对这些信号,利用设备自带的专用软件进行后处理,从而得到人体关节运动的真实数据。目前,运动捕获数据格式主要包括BVH、BVA、CSM、BIP、TRC、AMC、ASF、C3D、TVD等。图5-2绘出了常见的BVH数据所描述的人体关节模型。

2)运动捕获技术分类

运动捕获技术可分为传统方式和基于视频方式两大类,如图5-3所示。

(www.chuimin.cn)

图5-3 运动捕获技术的分类

传统的运动捕获方法通常需要在演员的关节贴上特殊的标记,然后利用硬件设备来跟踪这些标记的位置和方向,从而生成一组运动数据。传统的运动捕获设备分为机械式、电磁式和光学式三大类。这类方法的缺点是:捕获设备的价格昂贵;运动捕获过程繁杂;捕获设备干扰了运动的自然和流畅。

随着计算机视觉领域在基于人体运动跟踪方面研究的进展,基于视频的人体运动捕获被广泛地研究。基于视频的运动捕获涉及计算机图形学、计算机视觉等多方面的研究领域,其核心是从单个或者多个视频序列中检测、跟踪并获取人体运动数据,重建人体的3D运动,生成逼真的人体动画。

基于视频的运动捕获分为基于单目和基于多目两大类。基于单目视频的人体运动捕获具有易获取的优点,这些方法从图像帧中提取人体关键点、区域、轮廓等特征,并进行跟踪,然后进行3D估计[5]。但由于丢失了很多深度信息,捕获的精度低,仅适用于对捕获精度要求不高的应用。基于多目视频的人体运动捕获是在多摄像机条件下进行的人体运动跟踪。通常的方法是从图像中提取人体特征并跟踪,然后通过对多个跟踪结果的3D重建来得到人体的3D运动数据。近年来,基于体素(Voxels)的运动捕获方法作为一种新的基于多目视频的人体运动捕获方法被提出,得到广泛研究。这种方法并不直接从图像得到人体运动数据,而是建立一个3D观察区域,然后采用SFS(Shape-From-Silhouette,由轮廓线估计形状)、Visual Hull(可见外壳)等方法,通过3D体素拟合人体模型,从而得到人体3D运动数据。Mikic等[6,7]实现了一个基于体素的运动捕获的系统,从6个摄像机的同步视频中提取轮廓线来重建人体的3D体素数据,然后标记人体的各个部分,并采用卡尔曼滤波来获取人体姿态序列。Theobalt等[8,9]建立了一个从多个同步视频中获取不带标记的人体3D运动原型系统。首先基于背景剔除方法获取人体轮廓线,构造人体的可见外壳(Visual Hull);然后识别和跟踪视频中头、手、脚等特征点的2D位置,进而确定其对应的3D位置;最后,通过这些特征点来求解人体模型和可见外壳之间的最优拟合结果,进而确定人体模型的3D姿态。这种方法的显著优点是无需标记、人体运动不受限制。

3)角色表情和动作的捕获

3D人脸建模是角色表情动画的基础,一直是国内外学者的研究热点,具有广阔的应用前景。目前已有多种建模方法,MPEG-4标准中也专门制定了人脸模型参数规范。3D人脸建模的基本要求是,用较少的面片数表达清楚脸部的明显特征。上文角色外观建模部分对人脸建模已有所提及,这里从角色表情的角度再次比较详细阐述。

角色表情数据的获取方式可分为两类[10]

第一类获取方式是借助硬件设备采集真实人脸的数据进行3D重构。该方法着眼于恢复出准确的人脸形状,生成的模型精确度高、逼真,能满足某些场合的特殊需要;但它们的一个最大缺点是需要专门的3D扫描设备,如CT、核磁共振仪、3D激光扫描仪等,来直接获取人脸的几何数据进行建模,成本昂贵;而且重建模型相当耗时,因而应用范围受到一定的限制,不利于推广。Guenter等[11]提出的建模方法通过在人脸上贴上密集的标签,来跟踪表情人脸的变形,同时也通过对Cyberware扫描仪扫得的数据做三角化来得到人脸的网格模型,这个网格可以根据跟踪到的特征点而移动。但是这种方法所建立的模型不能根据动画参数来直接进行动画。

第二类获取方式是基于视频的人脸建模技术。此方法不需要特殊的设备,成本低廉,应用面广,尤其适用于对人脸模型精度要求不是特别高的情况。T.Akimoto等[12]用人脸的正、侧面两张照片来获得适配一般模型的特征信息,并采用模板匹配技术提取外围轮廓特征,划分很多小的矩形窗检测眼、鼻、口等特征信息,分别从正面、侧面调节一般模型从而建立特定人脸的3D模型。

基于视频来获取角色表情数据时涉及自动人脸检测技术。自动人脸检测及分割可以描述为:给定一个静态图像或视频序列,要求从未知的图像背景中分割、提取并确认可能存在的人脸,它是脸部表情建模的第一步。目前,现有的人脸检测技术方法可以分成三类[13]:基于特征的方法(feature-based)[14-23]、基于模板的方法(template-based)[24-28]、Appearance-based方法[29-33]

基于特征的检测方法是根据面部特征的空间几何关系和颜色纹理特征来定位人脸[15],这类方法检测速度很快,但精度较差,主要用于人脸的粗检测。这种方法可进一步分为基于知识自上而下的方法和基于不变特征自下而上的方法。前者首先定位候选人脸区域,然后通过对人脸的先验知识规则来检测人脸[14,23]。与前者相反的是,后者首先确定局部特征如眼睛、鼻子和嘴巴等或颜色纹理特征,然后组合这些特征来确定人脸的存在。基于知识自上而下的方法的代表性工作有:Yang等[14]采用分层次(不同分辨率下)由粗到细的检测思路,对于远距离检测的研究有借鉴之处,但是该方法不适用于检测姿态变化的人脸。在Yang等的基础上,Kotropoulos等[15]通过对边缘图像作垂直和水平的积分投影并结合五官分布的知识来确定面部器官的位置,方法简单,但不适用于复杂条件及多人检测的情况。李华胜等[23]通过区域增长分割人脸,在知识层次上进行眼睛、嘴巴、鼻子等人脸特征的提取,取得较高检测率和光照鲁棒性。基于不变特征的方法可以进一步分成三类:基于器官特征的方法、基于肤色纹理的方法和多特征结合的方法等。Yow等[16]提出一种基于器官特征的方法,该方法能检测不同方位和姿态的人脸,但是它不适用于检测中小尺度的人脸,且计算量较大。肤色信息是一种识别人脸区域和特征的有效工具,而且能用于小尺度和可变姿态的检测,但是肤色受光照的影响很大,必须进行光照补偿。Hsu等[17]在YCbCr颜色空间中,对Cb和Cr两个颜色分量分别进行转换,使它们自适应于光照变量,对光照具有较好的鲁棒性。Mckenna等[18]采用肤色高斯混合模型可以在较大的光照范围内进行检测。然而,单独使用基于肤色的方法不能有效地检测人脸。结合肤色信息,Dai等[19]采用空间灰度级共生矩阵(Space Gray-Level Dependence Matrix,SGLD)实现了在复杂条件下的人脸定位,该方法能用于非正立人脸、戴眼镜和胡须人脸的检测。综合利用形状、肤色及运动信息等多特征的方法[20-22]也许可以实现尺度鲁棒性的检测,应用于远距离的人脸检测。

基于模板的方法利用人脸的部分或全部的标准特征模板和输入图像中所有的区域进行匹配,利用模板和区域之间的匹配度量来检测。相比于基于特征的方法,这类方法速度慢,但精度较好。早期的基于模板匹配的方法都是建立一个标准的人脸模板,对输入图像进行全局搜索,对应不同尺度大小的图像窗口,计算与各子模板的相关系数,通过预先设置的阈值来判断该图像窗口中是否含有人脸[24]。这种简单的模板匹配方法易于实现,但噪声对检测影响很大。Miao等[25]提出一个多层次的模板匹配检测方法,可以实现一定程度上的多尺度和多姿态的检测,缺点就是不适用于多人的检测。Yuille等[26]使用可变形的模板用于人脸特征的提取,该方法的优点在于,由于模板可调,所以能够检测不同尺度和视角的人脸;其缺点在于,由于要动态地调整参数和计算能量函数,计算量很大。Lanitis等[27]通过使用点分布模型(point distribution model,PDM)描述形状矢量,同时,动态形状模型(active shape model,ASM)被用于估计人脸位置并提取强度信息,结合形状和强度信息表示人脸。ASM结合卡尔曼滤波算子用于估计基于形状不变的强度参数,这样可以用来检测视频序列中的人脸图像[28]

基于表象的人脸检测方法利用统计学习去挖掘人脸与非人脸图像之间的本质区别,通过学习大量训练样本形成的样本分布模型和判别函数进行人脸检测。如果学习样本比较充分,分类器选择得当,该类方法精度要好于上述两种方法,但计算量大,结合上述两种方法其中之一能在一定程度上解决问题。基于表象统计学习的检测方法也是目前的主流算法。该类方法广泛应用于静态图像的检测中,典型的方法如Rowly等[29]基于神经网络的方法、支持向量机的方法[30]、朴素贝叶斯分类器[31]等方法。Sung等[32]提出了一种基于样本学习的人脸检测方法,可以在复杂背景中检测正面垂直人脸,其缺点是它用于建立人脸模型和训练神经网络的样本数量太大,进行全局搜索的时间较长,但其提出的利用人脸标准模型来检测人脸的思想启发了以后的研究。在基于神经网络的检测方法中,值得一提的是Rowley等[29]的工作。他们的方法可以检测不同尺度的人脸,但只能检测垂直正面的人脸。Viola和Jones[33]提出的基于Haar特征的Adaboost的检测方法,大大提高了人脸检测速度,准确率也相当不错,被公认为当前自动人脸检测的标准方法,它使得人脸检测从真正意义上走向实用。然而总体而言,基于表象的人脸检测方法需要大量的各种条件下的训练样本,计算量大,这是一个必须考虑的问题。将来一个可能的方向是基于统计学习和结构知识相结合,再综合利用人工智能解决一些复杂的情况,如遮挡、光照、图像质量等问题。

总而言之,在自动人脸检测中,精度和速度是两个重要方面,一般都希望一个系统既能有很高的精度又能达到实时的速度,而这两方面在实际系统中又常常矛盾,如何在保证精度的前提下,有效地提高系统的速度,对于人脸检测研究具有很重要的意义。

基于运动捕获技术获取角色的表情和动作是表情和动作的主要来源之一。