由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2025-09-30
选用卡内基梅隆大学公布的动作捕捉数据集(CMU Motion Capture,MoCap)作为实验数据。该数据集包含人与环境以及动作交互的行为,有6 个大类和23 个子类,共2 605 个不同动作。其中,包括一些常见的双人交互动作,如打篮球、跳舞等。本章实验忽略应用场景,仅使用地面真实信息,形成一个独立的动作样本。故本实验使用的动作数据集包含35 类不同动作,每类动作有40 个样本,由20 位受试者各执行两次动作完成,共1 400 个样本。
为了验证张量模型的有效性,采用两种不同输入模型进行对比实验:一种是直接用向量模型作为输入量;另一种是构建张量模型作为输入量。其实验结果见表2.1。
表2.1 不同输入模型在MoCap 数据集识别率对比

实验过程说明:
①实验使用的数据集是Kinect 采集的三维坐标位置信息,选用人体骨架20 个关节点的骨骼模型。因此,本实验上下文点数目从1 ~19 进行选取,当动作识别率趋于稳定时,确定上下文点数目(本实验上下文点数目选择8)。(https://www.chuimin.cn)
②MPCA 算法每次迭代保留95%的方差信息。实验使用最近邻分类器进行动作分类,动作识别率见表2.1。使用最近邻分类器的原因是本章提出的形状描述子是依据欧氏距离进行特征表示的,并且上下文点的选择是在该点周围最近邻区域进行选择的,故与KNN 分类算法的工作原理相似。
从实验得到以下结论:
①上下文点数目的大小对动作识别率造成很大影响,应在权衡动作识别率和运算复杂度的情况下选取上下文点数目。
②使用向量形状描述子进行特征表示,35 类动作的平均识别率为78.4%,高于其他同类对比算法,证明本章所提出的完整形状描述子在人体动作识别方面,具有一定的可行性和有效性。
③使用张量形状描述子进行特征表示,得到了86.3%的最高平均识别率,不仅高于TCCA 算法76.4%的平均识别率,也高于向量模型作为输入的78.4%的平均识别率,充分说明,张量形状描述子能更好地保留数据结构信息,非常适合处理像骨骼序列这种具有多个维度独立的高维数据,能有效地进行人体动作识别,获得较高的识别率。
相关文章
由于人体动作的多样性和周边环境的复杂性,使人体动作识别充满了挑战。人体动作识别最初的研究都是基于RGB 视频图像序列,许多学者分别从静态特征、动态特征和时空特征3 个方面对该领域的工作进行了总结[1-4]。虽然基于RGB 视频图像序列的动作识别研究取得了较好的成果,但因其复杂背景、相机视角、光照变化以及遮挡等问题,人体动作识别研究仍然存在诸多挑战。......
2025-09-30
最初,人体动作识别主要是以RGB 视频图像为研究对象,经过多年的努力,人体动作识别技术已取得了较快的发展。本书使用Kinect 传感器采集人体动作的深度图像信息,探讨人体动作识别的相关理论和技术难点,着重研究如何消除可能对识别结果造成的干扰因素,提高人体动作识别的鲁棒性与普适性。......
2025-09-30
深度传感器Kinect 采集的深度图像与实时采集的骨骼模型深度信息相比,更能直观和完整地描述动作形状特征以及动态特征。图1.2深度传感器Kinect 采集的图像类型基于深度图像提取的特征主要包括全局特征和局部特征。基于深度图像的局部特征提取方法是人体动作识别领域中的一个研究热点。除了上述常用的人体动作识别研究方法外,还有另外一种研究方法,即将图像序列转换为3D 点云序列数据进行动作识别。......
2025-09-30
长期以来,由于人类情感的主观性和服装情感描述的模糊性,截至目前对服装情感的认识大多仍停留在定性阶段。而随着人工智能技术的发展及人们对服装品位的日益苛求和着装情绪化,我们认为是时候把对服装情感的研究和应用提升到“定量”阶段了。基于此,我们提出了“服装情感学”的概念,并把人工智能有关理论引入服装领域,结合心理学、感性工学等学科的研究成果,对服装情感进行量化研究,以期达到对服装情感的定量描述和量化评价。......
2025-09-30
一张图像需要经过图像特征提取和机器学习的过程,可以得到其情感因子值,进而根据式(7-1)可以算出其情感的定量描述,实现图像的情感语义识别,然后根据情感相似度就可以实现图像的情感语义检索。建立图像低层特征与情感因子之间的映射通过支持向量机来完成。......
2025-09-30
从色彩心理学来考虑,橘红的纯色定为最暖色,天蓝的纯色定义为最冷色,凡靠近暖极称为暖色,近冷极的称冷色,与两极距离相等的称为中性色。图8-1所示图像的饱和冷暖直方图和彩色对比度见表8-2。上述事实与前面的定性分析大体一致,显示出它们在色彩饱和度和冷暖特征上的区别,能够较好地描述图像的饱和度和冷暖分布,有利于实现第一个情感因子的推导。表8-2饱和度—冷暖模糊直方图......
2025-09-30
由于任务中待识别ID是半封闭集合,可以融合图像分类和度量学习的思路进行模型训练。第二阶段采用Softmax Loss+0.01×Center Loss,并在业务数据上进行网络参数的微调。目前把人脸分割为9个区域,加上人脸整体区域,共需训练10个模型。图10-12基于集成学习的人脸识别在测试阶段,对于待验证的人脸区域和候选人脸区域,分别基于图10-12所示的10个区域提取特征。最终,通过相似度加权的方法判断两张人脸是否属于同一个人。表10-1公开数据集评测结果......
2025-09-29
目前,将神经网络应用于图像识别的文献很多[1,2],但用于服装图像的情感语义识别和检索还几乎没有,而本章及第4、第5章正是采用了神经网络对男西装图像情感语义识别和检索问题进行了探讨。图3-1男西装图像样本神经网络训练和入库的流程图3-3男西装图像情感语义检索的流程BP神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。......
2025-09-30
相关推荐