由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
数据集对算法评估以及算法的快速发展起着至关重要的作用,对计算机视觉领域的发展具有极大的推动作用。深度传感器Kinect 的发布,由于其能同时捕获RGB 视频图像、深度图像以及骨架关节点信息,极大地促进了数据集的不断更新和发展,因此,使人体动作识别研究迈入了一个新的阶段。
下面简单介绍大部分可公开获取的RGB-D 动作行为数据集。目前有3类人体动作行为数据集,即单视角动作行为数据集、多视角动作行为数据集和双人/多人交互动作行为数据集。
(1)单视角动作行为数据集
MSR-Action3D[30]数据集是微软研究院2010 年公开的RGB-D 单视角行为数据集。该数据集提供了人体骨架20 个关节点的三维坐标位置信息数据、深度图像以及RGB 视频图像,每种行为由10 个受试者执行3 次。所有视频都是从固定的角度进行录制,拍摄对象在执行动作时面对相机。该数据集的20 种行为类别为高挥手(high arm wave)、水平挥手(horizontal arm wave)、锤(hammer)、手抓(hand catch)、打拳(forward punch)、高抛(high throw)、画X(draw X)、画钩(draw tick)、画圆(draw circle)、拍手(hand clap)、双手挥(two hand wave)、侧边拳击(side-boxing)、弯曲(bend)、向前踢(forward kick)、侧踢(side kick)、慢跑(jogging)、挥网球拍(tennis swing)、网球发球(tennis serve)、高尔夫挥杆(golf swing)及捡起扔(pickup and throw)。
RGBD-HuDaAct[87]行为数据集是新加坡高级数字科学中心2011 年公布的。该数据集描述人的日常行为。30 个受试者执行2 ~4 次,12 类行为包括打电话(make a phone call)、拖地(mop the floor)、进房间(enter the room)、出房间(exit the room)、上床睡觉(go to bed)、起床(get up)、吃饭(eat meal)、喝水(drink water)、坐下(sit down)、起立(stand up)、脱下外套(take off the jacket)及穿上外套(put on the jacket)。其中,涉及人和物之间的交互动作。
MSRDailyActivity3D[37]是微软研究院2012 年公布的日常行为数据集。它包含16 种起居室常见行为类别,即喝水(drink)、吃东西(eat)、读书(read book)、用手机打电话(call cellphone)、在纸上写字(write on a paper)、用电脑(use laptop)、用吸尘器(use vacuum cleaner)、高兴(cheer up)、静坐(sit still)、投掷纸(toss paper)、玩游戏(play game)、躺在沙发上(lay down on sofa)、走路(walk)、弹吉他(play guitar)、站起来(stand up)及坐下(sit down)。10 个受试者共320 个样本。
UTKinect[31]行为数据集是得克萨斯大学2012 年公布的。10 个受试者执行10 种行为类别,包括散步(walk)、坐下(sit down)、站起来(stand up)、捡起(pick up)、携带(carry)、扔(throw)、推(push)、拉(pull)、挥动(wave)及拍手(clap hands)。
MSRActionPairs[68]行为数据集是微软研究院2013 年公布的。该数据集的主要特点是“动作对”共享相似运动和形状特征,但是运动和形状之间的关系不同。10 名受试者执行两次6 种类型动作。其中,包括拿起/放下盒子(pick up/put down a box)、提起/放置盒子(lift /place a box)、推/拉椅子(push/pull a chair)、戴上/摘下帽子(wear/take off a hat)、背上/摘下背包(put on/take off a backpack)及贴上/取下海报(stick/remove a poster)。
UCFKinect[33]行为数据集是中福罗里达大学2013 年公布的。它主要用来测试识别系统在执行某个动作时如何克服初始姿势模糊性问题。该数据集包含16 个受试者(13 个男性,3 个女性),每个动作执行5 次,共计1 280 个行为样本。该数据集的16 种行为类别为平衡(balance)、向上爬(climb up)、爬梯子(climb ladder)、躲避(duck)、单脚跳(hop)、跳跃(vault)、飞跃(leap)、跑(run)、踢(kick)、打拳(punch)、向左扭(twist left)、向右扭(twist right)、向前走(step forward)、后退(step back)、向左移(step left)及向右移(step right)。
UTD-MHAD[88]行为数据集是由得克萨斯大学2015 年公布的。8 个受试者每个动作执行4 次。该数据集包含27 种行为,可分为以下4 大类:
①体育运动。篮球投篮(basketball shoot)、保龄球(bowling)、正面拳击(front boxing)、棒球挥杆(baskball swing from right)、网球正手挥拍(tennis right hand forehand swing)及网球发球(tennis serve)。
②手势。右臂向左滑(right arm swipe to the left)、右臂向右滑(right arm swipe to the right)、右手画X(right hand draw X)、顺时针画圆(clock-wise draw circle)、逆时针画圆(counter clockwise draw circle)及画三角形(draw triangle)。
③日常活动。右手挥手(right hand wave)、两手前拍(two hand front clap)、右手扔(right arm throw)、交叉双臂(cross arms in the chest)、双手推(two hand push)、右手敲门(right hand knock on door)、右手抓物(right hand catch an object)、右手捡起扔(right hand pick up and throw)、慢跑(jogging in place)、走(walking in place)、站起来(sit to stand)及坐下(stand to sit)。
④训练练习。双臂弯曲(arm curl)、左脚向前弓步(left foot forward lunge)、伸臂蹲(squat)。
除了上面介绍的数据集,还有一些公开的RGB-D 数据集,如CAD-60[89]、G3D[90]、UPCV[91]、DHA[92]、SYSU[93]等。
(2)多视角动作行为数据集
多视角动作行为数据集可通过两种方式产生:一种是多个摄像机固定在不同的位置;另一种是从不同的视角重复相同动作。(www.chuimin.cn)
Berkeley Multimodal[94]行为数据集是加利福尼亚大学2013 年公布的。它使用5 种不同的采集设备,即RGB 摄像机、立体视觉摄像机、深度传感器Kinect、加速度计及麦克风。12 位受试者执行动作,动作类型主要分3 类,即全身运动、上肢动作和下体动作。其中,包括跳跃、投、挥手、拍手及站立等。
DMLSmartActions[95]行为数据集是英国哥伦比亚大学2013 年公布的。它使用两台RGB 摄像机和1 台Kinect 摄像机捕获数据,整个拍摄过程摄像机位置和方向随时变化。16 个受试者执行12 个不同类型的动作,包括擦桌子(clean table)、喝水(drink)、捡东西(drop and pickup)、摔倒(fell down)、挑选东西(pick something)、放下东西(put something)、读书(read)、坐下(sit down)、站立(stand up)、打电话(use cellphone)、走路(walk)及写作(write)。
Multiview 3D event[96]行为数据集是加利福尼亚大学2013 年公布的。它使用3 个Kinect 摄像机从不同视角进行动作捕获。该数据集包含8 个事件类型,8 个受试者每个执行20 次,具有不同风格和不同对象。事件类型包括用杯子喝水(drink with mug)、打电话(call with cellphone)、读书(read book)、使用鼠标(use mouse)、敲打键盘(type on keyboard)、从饮水机取水(fetch water from dispenser)、从水壶倒水(pour water from kettle) 及按下按钮(press button)。
UCLA Multiview Action[97]行为数据集是北美大学2014 年公布的。它使用3 个Kinect 摄像机从不同位置进行拍摄,包括10 类动作行为,即单手捡东西(pick up with one hand)、双手捡东西(pick up with two hand)、丢垃圾(drop trash)、散步(walk around)、坐下(sit down)、起立(stand up)、穿上(donning)、脱下(doffing)、扔东西(throw)及携带(carry)。
除了以上提到的多视角数据集外,还有很多国内大学公布的数据集,如天津大学公布的多视角数据集TJU dataset[98]、南京大学公布的多视角行为数据集NJUST RGB-D Action[99]等。
(3)双人/多人交互动作行为数据集
人体交互动作行为识别是计算机视觉领域中的一个研究难点。目前,可以公开获取的人体交互动作行为数据集有以下3 种:
①SBU interaction[100]行为数据集是由斯托尼布鲁克大学2012 年公布的。数据集包含8 个类型的双人交互行为,即靠近(approaching)、离开(departing)、 推(pushing)、 踢(kicking)、 拳击(punching)、 交换物体(exchanging objects)、拥抱(hugging)及握手(shaking hands)。所有视频都在同样的室内环境拍摄,7 个受试者两两进行交互行为。
②LIRIS human activities dataset[101]行为数据集是法国国家科学研究中心2012 年公布的。它在复杂场景捕获人和人之间以及人和物之间的交互动作。所有的动作类型都来源于日常生活,如讨论、打电话和发放物品等。
③M2I dataset[102]行为数据集是天津大学2015 年公布的。它包括双人交互行为和人物之间交互行为。人物之间的交互行为类型包括投掷篮球(throwing basketball)、带球(bounching basketball)、转呼啦圈(twirling hula hoop)、挥网球拍(tennis swing)、网球发球(tennis serve)、打电话(calling cellphone)、喝水(drinking water)、拍照(taking photos)、扫地(sweeping the floor)、擦桌子(cleaning the desk)、弹吉他(playing guitar)、踢足球(playing football)、过球(passing basketball)及搬运箱子(carry box)。双人之间的交互行为类型包括散步(walking)、穿越(crossing)、等待(waiting)、聊天(chatting)、拥抱(hugging)、握手(handshaking)、高举(high-fives)、鞠躬(bowing)及拳击(boxing)。每个交互动作都由22 个受试者执行两次。
随着科学技术的发展,传感器工艺和技术得到了巨大发展,促进了人体动作行为数据集的不断更新和发展[103]。
人体动作识别研究,其研究过程大致可分为以下3 个部分:
①动作表示。研究如何从传感器采集的数据流中提取运动结构特征。
②学习模型。如何建立有效的数学模型。
③特征分类。如何消除视角变化、位置偏移以及速度差异等多种因素对动作分类的影响。
基于以上3 个步骤,本书就如何高效、准确地描述人体动作,建模,以及动作分类进行深入研究和探讨。
有关基于图像深度信息的人体动作识别研究的文章
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2023-10-28
最初,人体动作识别主要是以RGB 视频图像为研究对象,经过多年的努力,人体动作识别技术已取得了较快的发展。本书使用Kinect 传感器采集人体动作的深度图像信息,探讨人体动作识别的相关理论和技术难点,着重研究如何消除可能对识别结果造成的干扰因素,提高人体动作识别的鲁棒性与普适性。......
2023-10-28
表4.2同类识别算法对比的平均识别率图4.4在MSRActionPairs 数据集上平均识别率91.5%的混淆矩阵示意图实验结论:①基于人物交互相似动作识别,本章提出的基于深度图像的多特征融合算法能达到91.5%的平均识别率,充分验证基于交互动作整体结构的识别算法在相似“动作对”中具有较好的辨识性和有效性。......
2023-10-28
深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。图1.2深度传感器Kinect 采集的图像类型基于深度图像提取的特征主要包括全局特征和局部特征。基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。......
2023-10-28
针对上述噪声,本章引入高斯核函数进行滤波处理。同时,高斯核函数还具有单瓣频谱特性,对噪声具有很好的抑制作用。同样,为了获取紧凑的运动特征和更好的传输不变性,实验使用Max-pooling 技术进行下采样,归一化处理,形成向量Sm。......
2023-10-28
表2.2不同识别算法在MSR-Action3D 数据集识别率对比图2.6在MSR-Action3D 数据集上识别率90.5%的混淆矩阵示意图第二个数据集是微软研究院于2012 年公开的MSRC-12 动作行为数据集[137]。同样使用最近邻分类器进行分类,其实验结果见表2.3,本章所述方法获得的动作识别率相应混淆矩阵如图2.7 所示。......
2023-10-28
卷积神经网络的这种局部连接、权值共享结构使其布局更接近于实际生物神经网络。②卷积神经网络引入多种形式的池化操作,可对特征提取过程产生的局部相似视觉特征、局部结构的尺度差异,甚至对局部几何畸变起到抑制作用,较好地保持了旋转、尺度和缩放不变性,能得到更加鲁棒的特征描述。更为关键的是,卷积神经网络在每一个神经元节点使用相同的连接权值,可更有效地捕获图像不同部位的同类型视觉特征。......
2023-10-28
表3.1在MoCap 动作序列上提取关键帧从实验可知,本章提出的关键帧提取算法可有效地提取具有代表性的动作序列帧,关键帧序列只占样本序列的2/3 甚至更少,其余的帧均为冗余信息。因此,关键帧提取对减少运算复杂度、提高动作识别率具有重要意义。在关键帧提取实验的基础上,又进行了动作序列的关键轨迹提取实验。......
2023-10-28
相关推荐