首页 理论教育人工智能舞蹈动作识别:S-SOFM神经网络模型指南

人工智能舞蹈动作识别:S-SOFM神经网络模型指南

【摘要】:对于舞蹈动作识别,本章提出了一种无监督的、基于舞蹈姿态时空特征的S-SOFM识别方法,其特点表现为以下三个方面。基于第一章所提出的舞蹈特征提取模型,将舞蹈动作看作一系列姿态的时间序列,通过S-SOFM学习方法,将舞蹈动作转换为一个结构化的姿态空间,也就是说,把动作以离散姿态序列的形式映射到通过S-SOFM构建的球体输出空间中。每个节点代表一个动作姿态,每个动作都会拥有一条独特的“轨迹”,这样能够保证舞蹈动作识别的效果。

舞蹈交互系统中,快速识别动作是评判学习者舞蹈动作的一个必要的步骤。虽然有关人体自然运动的识别和分析的研究方法已经不胜枚举,[1]但是舞蹈作为一种以人体动作为主要表现手段的表演艺术,和人的日常生活动作具有很大的差异性。舞蹈动作的种类很多,动作的风格和质感不尽相同,对动作细节和表现方式的关注也使得舞蹈动作分析能够见微知著。此外,不同的个体存在身形、舞蹈技能等方面的差异,不同的人对相同的舞蹈动作的表现不尽相同,甚至表现某些特定的复杂动作时有较大的差异,这些都使得常规的人体动作识别方法并不适用于舞蹈动作的识别。在本章中,笔者将针对舞蹈动作的特点,提出一种无监督的、基于舞蹈姿态时空特征的球形自组织特征映射神经网络(S-SOFM)模型的识别方法(简称为S-SOFM)。

首先,我们来介绍舞蹈动作的特点。如下这些特点是在本章中探讨舞蹈艺术动作识别方法的重要依据。

(一)舞蹈动作的节奏性

节奏是舞蹈艺术的基本要素之一,没有节奏,舞蹈就无法表演。舞蹈通过连续和交替反复的动作及其与音乐节奏的对应,来表现复杂感情。各种类型的舞蹈都对动作的节奏、力度和韵律有着明确的要求。当然,不同的表演者在表演相同的舞蹈时在节奏上必然会存在一定的差异,一段舞蹈如果以差异很大的节奏或者动作力度来表演,就会变成另一种风格。所以,在测量舞蹈动作之间的相似性的时候,除了要考虑舞蹈姿态的时序性特征,还要考虑舞蹈的节奏特征对动作时长、姿态间过渡等方面的影响。

舞蹈可以被看成一个具有多属性(特征)的动态系统。针对不同时长的动作,很多研究者使用动态时间卷曲算法(Dynamic Time Warping,DTW)度量它们的动作轨迹的相似性。DTW作为一种基于模板的非线性匹配算法,通过动态规划算法得到弯曲路径来计算相似度。[2]不过由于该方法只注重动作序列的局部缩放,主要考虑动作姿态的时序性特征,因此对于动作的动态过程和节奏特征并不敏感,处理舞蹈动作的时空差异的能力相对较弱。此外,该方法的计算复杂度较高,不适合动作种类较多的情况。这种始终把时间看成动作曲线的附加维度的动作度量方式,难免使舞蹈动作的时间与空间有所分隔,产生的结果会与人们对舞蹈的直观认识有出入,无法真正反映舞蹈动作在特征空间的动态分布属性。因此,从舞蹈动作的特点来看,基于概率图模型的方法可能更加适合描述动作的整个动态变化过程。

(二)舞蹈动作组合的多样性

舞蹈是通过人体有组织、有规律的运动来表情达意的艺术形式。舞蹈被称为“活动的绘画”和“流动的雕塑”,舞蹈必须体现造型性。所谓造型,是舞者在跳舞过程中短暂停顿,在这一静止时段里保持的具有雕塑性的形象。舞蹈造型由舞者的躯干、四肢、头颈组合而成,可呈现丰富的视觉形象。在舞者以特定的时序连续表现这些舞蹈造型的过程中,还会形成大量的中间过程动作。从空间角度来看,不同部位的变化组合带来了丰富的肢体语言;从时间上看,不同的舞蹈姿态构成了一个丰富的舞蹈动作序列,因此和人体自然动作相比,舞蹈动作有着动作组合多样的显著特点。

在使用概率统计的方法对人体动作进行建模的研究方法中,研究人员常用到的生产式模型的学习方法需要提前对状态变量的先验分布进行描述,因此需要使用大量的训练数据进行参数学习,这种学习方法并不适用于动作复杂多变的舞蹈动作的分类与识别。例如前文讨论过的HMM模型方法就是典型的生产式模型的学习方法,研究人员主要将它用于人体局部动作(例如手势)或者日常基本动作的分类与识别。[3]相比之下,对于复杂多样的舞蹈动作,更适合采用具有高度并行性、自适应性以及一定自学习能力的方法。(www.chuimin.cn)

(三)舞蹈动作的连续性

舞蹈是把一系列自然无序的动作组织成有序的动作组合的表演艺术,也就是说,一个舞蹈动作中会包含多个基本的舞蹈动作单元,且舞蹈动作单元的边界是不确定的,这就要求我们在识别这些舞蹈动作的类别的同时,检测出各个动作单元的边界。直接的处理方法是:采用离线的人体动作识别,通过设定人体的运动幅度变化极值或者依靠音乐节奏对舞蹈动作进行片段分割,然后再进行舞蹈动作识别;或者通过并行处理的方式,同时进行动作片段的边界检测与识别,即检测动作单元的边界依赖于识别所得的相似度或距离的结果。陈松乐等人[4]在舞蹈检索方法中使用了DTW的变种算法,设定“当匹配的相似度或距离超过事先训练的阈值时,此处为当前模式的终点或下一模式的起点”。在舞蹈交互系统中,实时性也是衡量舞蹈动作识别效果的一个重要指标。依据学习者的学习进度,在学习者完成基本动作的学习之后,系统会要求学习者跟随完成一个连续的组合动作,并对这个连续动作进行在线识别,及时给学习者提供教学反馈,保证学习者取得最优的学习效果,这一点尤为重要。因此,在本书中,笔者对于单动作和连续动作的识别都进行了研究探讨。

对于舞蹈动作识别,本章提出了一种无监督的、基于舞蹈姿态时空特征的S-SOFM识别方法,其特点表现为以下三个方面。

(1)基于第一章所提出的舞蹈特征提取模型,将舞蹈动作看作一系列姿态的时间序列,通过S-SOFM学习方法,将舞蹈动作转换为一个结构化的姿态空间,也就是说,把动作以离散姿态序列的形式映射到通过S-SOFM构建的球体输出空间中。每个节点代表一个动作姿态,每个动作都会拥有一条独特的“轨迹”,这样能够保证舞蹈动作识别的效果。

(2)考虑到舞蹈动作的强时序性特点,此方法基于结构化的姿态输出空间,构建了四种动作描述方法和三条相似性衡量准则。通过实验可知,它们在不同类型的动作的识别过程中各具优势。

(3)通过贝叶斯概率估计方法,实现了对连续动作的识别,在完成动作识别的同时也完成了在线的动作分割。在舞蹈交互系统中,使用学习者的连续的舞蹈动作和老师的动作之间的直方图交叉距离作为贝叶斯算法中的后验概率进行计算得出动作的发生概率,根据发生概率的阈值,预估该动作所属的类别,这有助于对舞蹈运动单元做出评估和反馈。