欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
医学论文
当前位置:首页 > 医学论文
基于时空权重姿态运动特征的人体骨架行为识别研究
来源:一起赢论文网     日期:2019-12-13     浏览数:4881     【 字体:

            2019 年  targets  from  complex  scenes,  significantly  improve  the  background  clutter,  and  greatly  simplify  the  behavior recognition  model.  And  all  of  this  boosts  the  development  of  skeleton-based  action  recognition.  The  skeleton estimation algorithm defines skeleton as a graphical model composed of human trunk, head and limbs position. It can  quickly  and  accurately  estimate  the  3D  position  information  of  skeleton  joints  from  depth  images  at  the speed of 200 frames per second on Xbox 360 GPU. Existing skeleton based behavior recognition methods can be roughly  divided  into  two  categories:  joint-based  methods  and  body-based  methods.  The  human  skeleton  is regarded  as  a  set  of  joints  and  described  by  the  location  correlation  feature  of  the  joints  in  the  joint-based methods. These features include joint position features, relative joint location features, joint orientation features in a fixed coordinate system and so on. On the other hand, part-based methods regard the human skeleton as a set of  rigid  segments  and  use  joint  angle  features,  bioinspired  3D  features,  geometric  relationship  features  of different  rigid  body  parts  to  represent  the  human  skeleton.  Most  of  these  researches  focus  on  extracting  the spatial  information  of  different  body  joints  in  single  frame  and  temporal  information  of  body  joints  between adjacent frames to represent action sequence, but these works dont take into consideration that the importance of different body joints and postures may vary in terms of deciding which type of action class the sample belongs to. Therefore, an action recognition method based on spatio-temporal weighted posture motion features is proposed in this paper. Since each 3D video sequence can be regarded as a set of ordered static gestures, and the static pose can be regarded as a set of joints. Based on this, the author first deals with the spatial relationships of all joints contained in each static pose to obtain the spatial domain characteristics of the video sequence, and then calculate location relationships of the same joint between adjacent frames to get the temporal features. And normalization scheme is introduced to obtain the final representation of the skeleton sequence. The author also adopts bilinear classifier to calculate the weights of the joints and static postures for the action class to determine the informative joints and postures. Meanwhile, dynamic  time warping (DTW) algorithm and  Fourier temporal pyramid (FTP) representation are introduced to process temporal modeling for better temporal analyses, and SVM is finally used for  the  action  classification.  The  experimental  results  on  three  challenging  datasets  demonstrate  that  our approach achieves competitive, even the best performance compared with the state-of-the-art methods.   Key words  action recognition; feature representation; skeleton sequence; linear classifier; temporal model   1  引言 近些年来,与计算机视觉相关的人机交互应用(如行为监控、电子游戏、医疗保健等)越来越受到人们的青睐,而这些交互应用的关键技术在于如何使机器理解人体的动作,也即人体行为识别。尽管专家学者之前已经对此做了大量的研究工作,然而因为各种各样的干扰因素,例如照明变化、视点变化、遮挡和背景杂乱等,如何精确地从 RGB 视频序列中识别出人体的行为动作依然是一个十分具有挑战性的难题。而深度传感器的普及以及基于深度图像实时骨架估测算法的提出[1],使得人体行为识别研究迎来了发展机遇。图 1 所示即为选取的样本动作 Tennis  Serve 的深度图序列,从中可以看到深度图序列提供额外的深度信息,可以很容易地从复杂场景中分割出所需要的目标,显著改善了背景杂乱等问题,极大地简化了行为识别模型,由此发展出基于三维骨架序列的人体行为识别研究。 骨架估测算法将骨架定义为由人体躯干、头部和四肢位置构成的图解模型,可以从深度图像中快速准确地估计出骨架关节点的三维位置信息,在Xbox360 GPU 上甚至可以达到每秒 200 帧的计算速度,这样就可以用三维骨架的位置参数和运动来表示人体姿态和行为,具有更好的视图不变性,同时还极大地减小了行为识别过程中的模型复杂度和计算量。图 2 显示了包含不同关节点个数的骨架模型,其中的点表示估测出的人体关节点。 现有基于骨架的行为识别方法可以大致分为两类:基于关节点方法和基于身体部位方法。基于关节点方法把人体骨架视为一个点集,然后用点集中关节点的位置相关特征来描述骨架,这类特征包计算机学报 丁重阳等:基于时空权重姿态运动特征的人体骨架行为识别  3  括关节点位置特征,成对的相对关节点位置特征,固定坐标系下的关节点方向特征等。而另一方面,基于身体部位方法将人体骨架视为一系列连接的刚体片段,使用如关节点角度特征,仿生三维特征,不同部位间三维几何关系特征等表示人体三维骨架。这些研究工作结合帧内空间域特征和帧间时间 图 1   由深度传感器捕捉到的 Tennis Serve 动作的深度图样本序列    图 2  包含 20 个关节点(左)和 15 个关节点(右)的骨架模型示意图 域特征来表示人体骨架序列,但都忽视了不同姿态和关节点的权重变化关系,使得特征表示存在冗余,因为并不是所有的关节点和姿态都拥有相同的重要性,那些重要的关节点和姿态在决定行为所属类别时应该占有更大的比重。 本文则从以上问题出发,提出了一种基于时空权重姿态运动特征的行为识别方法。由于骨架数据集中每个三维视频序列均可视为由一系列有序的静止姿态构成的集合,而静止姿态又可视为由一系列关节点构成的点集,基于此,本文首先处理每个静止姿态对应点集的关节点关系,得到视频序列的空间域特征;其次,通过相邻时刻对应关节点之间的位置关系,得到每一个关节点的运动矢量,构建静止姿态随时间的动态变化关系模型,得到视频序列的时间域特征。但是,在静止姿态中,不同关节点对识别该姿态所起的作用是不同的,可区分度高的关节点有助于更精确地识别姿态;同样地,在时序视频序列中,不同姿态对判定视频所属行为类别所起作用也是不同的,重要的姿态可以有助于更加准确地判定行为类别。因此,本文采用双线性分类器[2]来计算得到一个关节点和姿态的权重矩阵,以此确定重要的、可区分度高的关节点和静止姿态,期望得到更好的分类结果。 本文主要贡献如下:(1)引入权重学习方法,在训练样本时使用双线性分类器计算出关节点和姿态的权重矩阵,获取三维人体运动的模式特征;(2)提出了一种新的时空姿态运动特征提取方法,该方法提取骨架序列的帧内空间域信息和帧间时间域信息;(3)提出了时空权重姿态行为识别算法,在多个数据集上的实验结果表明,该算法与其他方法相比具有较好的识别效果。 本文其它部分内容安排如下:第二部分简单回顾了已有的一些行为识别方法;第三部分详细介绍本文提出的时空姿态运动特征提取方法、权重矩阵的计算方法和时空权重姿态行为识别算法;第四部分给出本文提出的方法在多个数据集上的测试结果以及和其他方法的对比讨论;第五部分总结本文工作以及对接下来工作的展望。 2  相关工作 相较于传统二维图像,深度图像提供了额外的深度信息,解决了背景杂乱等问题。通过基于深度图像的识别算法[3],可以得到更加准确的行为分类;从深度图像中提取出人体骨架,在保留以上信息的同时,还可以简化行为识别模型,减少计算量,具有更好的视图不变性。而如何使用骨架中的关节点位置参数和运动信息来构建行为特征模型,实现更精准的行为分类,也正是本文的研究重点。基于骨架的行为识别方法可以分为两大类:基于关节点特征的方法和基于身体部位特征的方法。 计算机学报 计  算  机  学  报  2019 年  基于关节点特征的方法:Hussein 等人[4]提出的时域分层协方差特征方法使用三维关节点位置信息来表示人体骨架,同时建立一个时域分层的协方差矩阵描述子模型来表示这些关节点的运动轨迹。Brendel 等人[5]提出了时空图模型,该模型使用时空图结构表示视频序列,其中节点表示多尺度视频片数据集归一化 分割训练集训练集训练集训练集训练集测试集姿态权重关节点权重时空姿态运动特征提取动态时间规整(DTW)傅里叶时间金字塔(FTP)权重学习SVM分类器行为类别时空姿态运动特征提取动态时间规整(DTW)傅里叶时间金字塔(FTP)图 3   提出算法的流程图  段,带方向的边表示它们之间分层的时空域关系,最终由此学习得到一个图模型用于分类。而 Wang等人[6]提出的行为集方法则使用两两关节点之间相对位置关系来表示人体骨架,并且用多层傅里叶因子模型表示时序变化。Yang 等人[7]提出了本征关节点特征,他们使用关节点的相对位置信息、时序位移量和当前时刻帧与初始帧的偏移量来表示人体骨架特征,然后用朴素贝叶斯最近邻规则进行分类。Yu 等人[8]提出了轨迹特征加权方法,该方法通过从视频序列中找出兴趣点,然后提取 SIFT 轨迹特征和粒子轨迹特征,同时对两种轨迹特征进行加权处理,最后使用 SVM 完成行为分类。而随机森林[9]方法也采用了和本征关节点特征相类似的特征表示方法,不同的只是分类方法的选择。Xia 等人[10]提出了一种视点不变的人体骨架特征表示方法,他们通过计算关节点在固定坐标系下的方向,将这些三维点坐标量化到方向直方图中,同时使用隐马尔科夫模型来表示特征的时序变化关系。Zhou 等人[11]提出了语义上下文特征树模型,该方法从视频序列中提取时空兴趣点(space-time interest points),然后通过最近邻融合来构建一个语义树结构关系,最终得到特征树模型用于分类。Anirudh 等人[12]根据人体骨架关节点在不同时刻的位置信息提取骨架运动轨迹特征,然后将特征空间结构化到黎曼流形上 , 最 后 在 流形 空 间 进行 轨 迹 相 似 性 度 量 。Hernando 等人[13]将深度学习方法用于行为识别,提出了时空长短期记忆网络(spatio-temporal LSTM)模型,使用树形结构的遍历方法来获取人体骨架的关节点特征,然后将传统的长短期记忆(Long Short Term  Memory)网络的时域分析扩展到了时空域分析,以此建立骨架关节点特征的时空模型。Amor Ben  Tanfous 等人提出了将三维人体骨架序列的形状轨迹投影到肯德尔空间[14],然后采用稀疏编码和字典学习对肯德尔形状空间进行编码和分类。Che-nyang  Si 等人[15]提出了空域推理和时域堆学习的方法,使用残差神经网络来捕获高维空间结构信息,然后使用多个具有跳跃结构的长短期记忆网络(LSTM)来获得骨架序列的时域动态信息。Junwu Weng 等人提出了可变形的姿态遍历卷积方法[16],使用一维的卷积操作来遍历每一个骨架关节点,并为每一个关节点计算出最优化的卷积核,得到最终姿态特征,然后使用长短期记忆网络(LSTM)完成分类。 基于身体部位特征的方法:Yacoob 等人[17]提出了参数化建模方法将人体分为五个部分,然后用人体部位之间的的水平、垂直变换关系,以及平面内的旋转等运动元素特征来描述人体行为,最后用主成分分析将人体行为表示为一系列基础动作的线计算机学报———————— 本课题得到国家自然科学基金面上项目(61571345)、国家自然科学基金重大研究计划培育项目(91538101)、国家自然科学基金国际合作项目(61850410523)和空间测控通信创新探索基金(201701B)资助.  丁重阳,男,1994 年生,博士研究生,主要研究方向为计算机视觉、视频行为识别. E-mail: itobenumber1@163.com.  刘凯(通信作者),男,1977 年生,博士,教授,博士生导师,硕士生导师,主要研究领域为高速图像视频编码、嵌入式片上系统.  E-mail:  kailiu@mail.xidian.edu.cn.  李光,  男,1980 年生,博士研究生,主要研究方向为视频行为识别.  闫林,男,1989 年生,博士研究生,主要研究方向为深度学习.  陈博洋,男,1994 年生,硕士研究生,主要研究方向为数据压缩.  钟育民,男,1985 年生,硕士,高级工程师,主要研究领域为航天信号处理技术. 基于时空权重姿态运动特征的人体骨架行为识别研究  丁重阳   刘凯   李光   闫林   陈博洋   钟育民  (西安电子科技大学计算机学院  西安  710071) (北京遥测技术研究所  北京  110000)  摘  要  人体行为识别在视觉领域的广泛应用使得其在过去的几十年里一直都是备受关注的研究热点。近些年来,深度传感器的普及以及基于深度图像实时骨架估测算法的提出,使得基于骨架序列的人体行为识别研究越来越吸引人们的注意。已有的研究工作大部分提取帧内骨架不同关节点的空间域信息和帧间骨架关节点的时间域信息来表征行为序列,但没有考虑到不同关节点和姿态对判定行为类别所起作用是不同的。因此本文提出了一种基于时空权重姿态运动特征的行为识别方法,采用双线性分类器迭代计算得到关节点和静止姿态相对于该类别动作的权重,确定那些信息量大的关节点和姿态;同时,为了对行为特征进行更好的时序分析,本文引入了动态时间规整和傅里叶时间金字塔算法进行时序建模,最后采用支持向量机完成行为分类。在多个数据集上的实验结果表明,该方法与其他一些方法相比,表现出了相当有竞争力,甚至更好的识别效果。  关 键 词  行为识别;特征表示;骨架序列;线性分类器;  时序模型 中图法分类号  TP391  Spatio-Temporal Weighted Posture Motion Features for Human Skeleton Action Recognition Research  DING Chong-Yang   LIQ Kai   LI Guang   YAN Lin   CHEN Bo-Yang   ZHONG Yu-Min (Department of Computer Science and Technology, Xidian University, Xian, 710071) (Beijing Institute of Telemetry Technology, Beijing, 110000)  Abstract  In  recent  years,  computer  vision  related  applications  (e.g.  behavior  surveillance,  human-computer interaction,  electronic  games,  and  health  care.)  have  gained  increasing  popularity,  and  the  key  technology  of these interactive applications is how to make the machine understand human movements, which is also known as human action recognition. Although experts have done a lot of research before, how to accurately identify human action  from  traditional  RGB  videos  is  still  a  challenging  problem  due  to  various  interference  factors,  such  as lighting changes, view changes, occlusion and background clutter. Latterly, the popularity of depth sensors and real-time  skeleton  estimation  algorithm  based  on  depth  image  have  brought  opportunities  for  human  behavior recognition research. The depth map provides additional depth information, which can easily segment the desired 计算机学报 丁重阳等:基于时空权重姿态运动特征的人体骨架行为识别  5  性组合。而 Chaudhry 等人[18]提出了仿生三维动态特征方法,将人体骨架多层次地分割成较小的部分,每一部分都用一些仿生形状特征来表示,最终用线性动态系统模型描述这些仿生特征的时序变化关系。除此之外,Ofli 等人[19]提出了一种新的骨架表示方法,他们根据每一时间段中关节点间角度的平均值或变化值,关节点的最大角速度等情况自动地选出一些信息量大的关节点,并用这些关节点序列表示人体行为。而在 Ohn-bar 等人[20]的研究工作中,两两关节点角度轨迹的相似程度被用来描述人体骨架序列,而线性支持向量机则被用于实现对人体行为的识别分类。而 Du 等人[21]提出了 HRNN模型,将人体骨架分割成由躯干、双臂和双腿组成的五个部位,然后结合深度学习方法,使用分层的循环神经网络(RNN)来对不同部位之间的关系进行建模。Shahroudy 等人[22]采用了与之前工作相似的骨架分割方法,但在他们提出的 P-LSTM 方法中,使用长短期记忆(LSTM)网络取代了传统的循环神经网络来分析不同身体部位之间的关系。 3  时空权重姿态运动特征表示 本文从姿态的时空动态变化关系和权重学习出发,提出了一种基于时空权重姿态运动特征的行为识别方法,具体的算法框架如图 3 所示。首先,将数据进行归一化处理,使得不同骨架序列缩放至统一的尺度特征;其次,提取骨架序列的帧内和帧间关节点特征,得到骨架序列的时空姿态运动特征表示;然后根据提取到的特征,采用动态时间规整和傅里叶时间金字塔进行时序建模分析;同时,在训练样本的过程中,采用双线性分类器逐步计算得到关节点和姿态相对于动作种类的权重,找出重要的、可区分度高的关节点和静止姿态;最后结合特征模型和静止姿态的时空权重,使用支持向量机完成行为分类。 3.1   特征提取 人体骨架数据集中任一时刻的帧对应于一个人体姿态,可以视为由一些关节点构成的点集。这些关节点以及它们之间的相对位置关系表示了人体骨架的帧内差异,包含了人体静止姿态的空间信息,在物理意义上表现为使用两点之间的向量来度量两点间差异性。因此,本文处理每个静止姿态对应点集中不同关节点间的位置关系,得到视频序列的空间域特征。假定人体静止姿态包含 K 个关节点,即:1 2{ , ,..., }Kp =p p p ,第 i 个关节点的坐标ip { , , }i i ix y z ,为了描述 t 时刻静止姿态中关节点之间的空间位置关系,本文计算两两不同关节点之间的坐标差异作为该静止姿态的空间域特征:  { | , 1,2,..., ;}p i jf =p -p i j =K i ¹j  1) 一系列有序的静止姿态构成了视频序列,如何描述静止姿态随时间的动态变化关系也是本文要解决的问题。同一关节点在所有不同时刻的位置信息构成了该关节点的运动轨迹,相邻时刻间的位置矢量近似表示了该关节点的运动速度,在物理意义上表现为使用速度向量来表示点在当前时刻的运动速度大小和运动方向。因此,本文通过计算当前时刻静止姿态中所有关节点与相邻时刻静止姿态中对应关节点的运动矢量,以此构建姿态随时间的动态变化关系,得到视频序列的时间域特征。假定t t+1 时刻的人体姿态分别表示为 PtPt+1,本文计算 t t +1 时刻各自姿态中同一关节点的运动向量来表示静止姿态的时序动态特征:  { }1 11| ; ; 1, 2,...,t t t tm i i i t i tf p p p P p P i K+ ++= - Î Î =(2) 在此通过对pf mf 进行2l 范数归一化处理,使得该向量的每个元素分量变得很小,接近于零但又不等于零,进而限制向量每个分量都处于[-1,1]范围内,减少不同个体在执行同一动作时由于个体习惯差异而导致的类内差异,避免因存在奇异样本数据而带来的影响,加快收敛速度,提高模型的识别稳定性。经实验验证,采用这样的归一化方法处理完特征数据后比直接采用原始特征数据表现更好,具体实验数据详见 4.3 节。 接下来,本文将静止姿态特征和姿态随时间的动态变化特征直接连接在一起,得到某一时刻 t 时,人体骨架特征表示为:  { ,}tp mf =f f   3) 最终,包含 N 帧的视频序列的时空姿态运动特征就表示为所有 t 时刻的人体骨架特征的集合:  { }tS =f| t =1, 2,..., N  4)      与近些年来基于长短期记忆网络 LSTM 的特征提取方法相比,本文的特征提取方法具有以下优点:首先,本文的特征提取方法计算简单直观,相计算机学报 计  算  机  学  报  2019 年  比于深度学习的黑盒模型,可理解性更强;其次,本文特征提取方法不需要复杂的迭代学习过程和大量权重参数的更新调整。以本文方法和 ST-LSTM方法作为对比,当一副骨架的关节点数为 20 时,本文方法的特征提取维度为 630,而且提取过程不需要训练参数,当在相同的特征提取维度条件下进行测试时,只考虑 ST-LSTM 网络的输入门、输出门、空域遗忘门、时域遗忘门和输入变换等结构,其特征提取所需训练的权重参数数量已经达到189000。最后,本文特征提取算法的计算效率更高。在相同测试条件下,即骨架关节点数为 20,特征提取维度为 630,此时本文特征提取过程需要进行 630次加法运算,而 ST-LSTM 算法则需要进行 189000次乘法运算和 185850 次加法运算,显而易见,本文提出的特征提取方法计算效率更高,提取速度也更快。 3.2   权重学习 本文采用一对多(one-vs-all)的分类策略进行支持向量机(SVM)的训练预测,在训练样本的过程中,考虑到静止姿态中不同关节点的位置信息对该姿态类别的影响程度是不同的,可区分度高的关节点可以更加精确地表征该静止姿态;同样地,不同时刻对应的静止姿态对判定行为序列类别所起作用也是不同的,重要姿态往往具有决定性的作用。基于此,本文提出权重学习的方法,引入关节点权重sp 和姿态权重mp 来表示不同关节点和姿态对行为序列类别的贡献度大小,然后采用双线性分类器计算得到不同关节点和姿态的权重矩阵,最后结合特征模型和支持向量机对行为进行分类。 在此,本文首先引入 SVM 的一些概念及结论,前人的研究工作[23]表明,支持向量机在解决分类问题时的目的是设计一个超平面,将所有的训练向量正确分类:  0( ) 0Tg x= w x+w =  (5) 其中 w 0w 是超平面的参数, x 是训练集的特征向量。而最优化分类即为:  201( )2( ) 1, 1, 2,...,Ti ihy w i n=+ ³ =w ww x最小化限制条件  (6) 其中iy 代表相应类别的标签,取值为+1 -1。 接下来说明权重学习过程,首先本文引入关节点权重sp 和姿态权重mp ,假定行为类别 v 的关节点权重和姿态权重分别为svp mvp ,那么将某一视频行为序列预测为类别 v 时的错误分类评分为:  21( ) ( )2s T mv vc v = p w p  7) 则最优分类即为求解 c*的值:  * arg min ( )vc =c v  8) 将上式变换后按时序展开为:  211* arg min ( )2Nm T sv vvic i== åp w p  9) 为了求解上式,需要先求得svp mvp 的值。根据以往经验,本文定义权重学习目标函数为:  2,121min ( )2, ( ) , 0max(0,1 ( ))0, 1, 2,...,s mv vMs m Tv v iiNm mv vi ni i iis t i Nl c vi Ml xxx==+ = ³ ³ - ³ =ååp pp pp p  10) 其中 M 是训练样本数量,l 是分类错误惩罚系数,ix 是分类错误得分,N 是视频序列的帧数,{ 1,1}il Î - 是对应训练样本的标签,iv 是类别 v 中第 i 个训练样本。而上式(10)的最优解可以通过迭代运算得到,具体迭代过程可以分为以下两步: 1)固定mvp 值,更新svp 值: 当mvp 值固定时,公式(10)就可以视为如公式(11)所示满足2l 正则化的支持向量机损失函数问题:  22111min max(0,1 ( ))2svKsv i iib ll c v=+ å-pp 11) 其中21mvb = p ,而本文采用 libsvm [24]中的优化方法来解决该函数的优化问题。 2)固定svp 值,更新mvp 值,其中mvp 初始值设为 1。 当得到svp 的值后,公式(10)就可以看成是满足如下线性约束条件的凸优化问题:  222111min max(0,1 ( ))2, ( ) , 0mvKmv i iiNm mv vil c vs t i Nb l==+ - = ³ååppp p12) 在此,本文引入凸优化的最优解方法[25]来计算并更新mvp 的值。而且通过设定mvp 初始值为 1,即假定所有时刻的帧都具有相同权重,然后根据公式(11)和公式(12)迭代运算更新权重,直到目标函数公计算机学报 丁重阳等:基于时空权重姿态运动特征的人体骨架行为识别  7  式(10)收敛。 3.3   时序建模 提取出行为特征后,还存在以下问题亟待解决:第一个是不同个体在执行相同动作时由于个体差异可能会导致完成动作的速度快慢不一致;另一个则是不同动作在被执行时持续的时间长短不一致。 为此,本文首先采用动态时间规整 DTW[26]算法来处理行为特征,解决动作速率不一致的问题。在处理时间序列数据时,需要比较相似性的两段时间序列的长度可能并不相等,在行为识别领域表现为不同个体执行动作的速率不同,这种情况下,使用传统的欧几里得距离无法有效地求出两个时间序列之间的相似性。因此在比较它们相似度之前,需要将其中一个或者两个时间序列进行规整,在时间轴下达到更好的对齐。而动态时间规整就是实现这种规整对齐的有效方法,它是一个典型的优化算法,用满足一定条件的时间规整函数描述测试模板和参考模板的时间对应关系,将时间序列在时间轴上进行延伸和缩短,以此来求解两个时间序列之间的距离,也即相似性。当测试时间序列规整后可以和参考序列在时间轴上对齐,此时计算两个序列中对应时刻间的距离之和来作为时间序列间的相似性度量标准。 其次,本文希望得到一种时域特征表示方法,可以很好地表示人体行为的时序结构,同时对环境噪声和时序错位有较高的鲁棒性,因此引入傅里叶时间金字塔 FTP 模型[6]FTP 模型将时序行为序列递归地分割成多个层次的金字塔表示,然后对不同层次的分割做短时傅里叶变换处理,以此得到对应的傅里叶系数。在此本文去除受噪声等影响的高频系数,只保留低频系数作为相应金字塔层次的特征。最终金字塔所有层次的低频傅里叶系数连接在一起构成该时序行为序列的特征表示。而且傅里叶时间金字塔特征还有以下优点:首先,通过去除傅里叶系数中的高频信号,提取出的特征对噪声有良好的鲁棒性;其次,同一时间序列经过时域变换后其傅里叶系数的大小是保持不变的,因此该特征对时序错位也具有很好的鲁棒性;最后,使用金字塔结构表征行为的时序关系,可以获得较好的尺度不变性,提高行为识别的稳定性。 3.4   时空权重姿态行为识别算法 时空权重姿态行为识别算法分为三个步骤:首先是时空姿态运动特征提取,其次是训练过程中的权重学习,最后是时序建模与分类,具体算法描述如下: 算法 1.   时空权重姿态行为识别算法 输入:人体骨架序列的关节点集合 S 输出:人体行为类别 v /*特征提取*/ 1. FOR t = 1 TO t = N 2.    FOR i, j = 1 TO i, j = K AND i ¹ j 3.     p i jf =p -p  4.    END FOR                5.    FOR i = 1 TO i = K 6.     t1 tm i if p p+= -  7.    END FOR 8. END FOR 9. 特征结合及归一化 10. 由公式(4)计算得到整个骨架序列的特征表示 /*权重学习*/ 11. FOR t = 1 TO t = N 12.   mvp = 1   /*初始化姿态权重mvp 的值*/ 13.    Update(svp ) /*固定mvp 的值,计算并更新关节点权重               svp 的值*/ 14.    Update(mvp ) /*固定svp 的值,计算并更新姿态权重    mvp 的值*/ 15. END FOR 16. 根据公式(6~9),结合学习到的权重进行最优分类的训练 /*时序建模和分类*/ 17. FOR t = 1 TO t = N 18.    dtw_modeling(  )  /*使用动态时间规整 DTW[26]处理行  为特征,解决动作速率不一致的问题*/ 19.    ftp_modeling( ) /*引入傅里叶时间金字塔 FTP 模型[6],  处理执行动作时间长短不一致的问题,同时去除高频  信号,减少环境噪声影响*/ 20. END FOR 21. Classify_with_SVM( ) /*SVM 分类*/ 22. RETURN v 由以上算法过程可以得到,当一副骨架包含常数 K 个关节点,且骨架序列的长度 N 变化时,特征提取算法的时间复杂度为 O(N),在运算效率方面,对于某一时刻的姿态帧,特征提取算法只需要计算机学报 计  算  机  学  报  2019 年  进行[k(k -1) / 2+k]次加法运算,占用较小的计算资源;而权重学习算法的时间复杂度为 O(N),其中进行一次权重学习需要对帧内所有关节点特征权重svp 和当前时刻姿态权重mvp 分别进行一次更新, 表 1  MSR-Action3D 数据集分为三个行为子集 行为集 1AS1)  行为集 2AS2)  行为集 3AS3Horizontal wave (HoW)  High wave (HiW)  High throw (HT) Hammer (H)  Hand Catch (HC)  Forward Kick (FK) Forward punch (FP)  Draw X (DX)  Side kick (SK) High throw (HT)  Draw tick (DT)  Jogging (J) Hand clap (HC)  Draw circle (DC)  Tennis swing (TSw) Bend (B)  Hands wave (HW)  Tennis serve (TSr) Tennis serve (TSr)  Forward kick (FK)  Golf swing (GS) Pickup throw (PT)  Side boxing (SB)  Pickup throw ()PT 此时需要进行 2*[k(k -1) / 2 +k]次乘法运算。 4  实验结果 4.1   实验数据集 MSR-Action3D[27]数据集:这个数据集是由类似于 Kinect 的深度传感器采集到的。它包含了 10个人执行 20 个动作,每个人执行同一动作两到三次,一共 557 个行为动作序列,其中每个行为序列的骨架信息由 20 个关节点的三维坐标表示。其包含了许多彼此非常相似的动作序列给识别该数据集的行为增加了挑战性。 UTKinect-Action[11]数据集:这个数据集是由一个静止不动的 Kinect 深度传感器捕捉到的。它包含了 10 个人执行 10 个动作,每个人执行同一动作两次,除去一些噪声干扰程度很大的视频序列,一共有 199 个行为序列,其中每个行为序列的骨架信息也是由 20 个点的三维坐标表示。而数据集中相同类别动作的类内差异增加了在该数据集上行为识别难度。 Florence3D-Action[28]数据集:这个数据集是由一个静止不动的 Kinect 深度传感器采集到的,它包含了 10 个人执行 9 个动作,每个人执行同一动作两到三次,一共有 215 个动作序列,其中每个行为序列的骨架信息由 15 个点的三维坐标表示。这是一个非常有挑战性的数据集,因为数据集中相同类别间的类内差异以及不同类别的类间相似问题。 4.2   实验设置 为了便于对不同的研究方法进行客观的对比分析,已有的研究工作针对不同的数据集设置了不同的测试标准,当在某一个数据集上进行测试时,就要遵循该数据集上特定的测试标准,因为只有测试标准统一,实验结果对比才有实际意义。 对于 MSR-Action3D 数据集,本文采用不同个体间交叉验证的测试标准[27],将一半数量个体的行为序列用来训练,而另一半数量个体的动作序列用来测试。参照该测试标准,本文将数据集分为 AS1HoW H FP HT HC B TSr PTHorzontal WaveHammerForward PunchHigh ThrowHand ClapBendTennis ServePick Throw100.000.83 83.17 3.33 11.83 0.833.29 95.80 0.91100.00100.0098.67 1.330.67 98.67 0.670.71 5.22 94.07AS1CrSubHiW HC DX DT DC HW FK SBHigh WaveHand CatchDraw XDraw TickDraw CircleHand WaveForward KickSide Boxing77.33 9.00 10.50 1.50 1.6715.83 61.83 9.67 1.50 11.174.04 89.36 2.44 3.338.67 91.3310.00 29.33 12.67 48.00100.001.98 2.02 96.00100.00AS2CrSub0.834   我们的方法在 AS1 AS2 子集上采用交叉个体验证得到的混淆矩阵,每一行表示样本标签,每一列代表识别结果 表 2  我们的方法与其他 state-of-the-art 方法在 MSR-Action3D 数据集上的识别率对比 方法  AS1 识别率(%)  AS2 识别率(%)  AS3 识别率(%)  平均识别率(%HO3DJ[11]  88.0  85.5  63.3  78.9 计算机学报  丁重阳等:基于时空权重姿态运动特征的人体骨架行为识别  9  Eigenjoints[7]  74.5  76.1  96.4  82.3 Lie Group[29]  95.3  83.9  98.2  92.5 Actionlet[6]  --  --  --  88.2 HBRNN[22]  93.3  94.6  95.5  94.5 ST-LSTM[14]  --  --  --  94.8 Transition Forests[30]  96.1  90.5  97.1  94.6 我们的方法  96.4  83.5  99.7  93.2 HT FK SK J TSw TSr GS PTHigh ThrowForward KickSide KickJoggingTennis SwingTennis ServeGolf SwingPickup Throw100.0099.33100.00100.00100.0099.3299.33100.00AS3CrSub0.680.670.67W D AP C TL SD SU RW BWaveDrinkAnswer PhoneClapTight LaceSit DownStand UpRead Watch96.78 1.00 2.227.50 79.25 7.75 5.508.41 73.91 1.00 12.660.77 95.17 0.67 3.3998.89 1.11100.00100.006.32 3.41 2.50 2.25 85.524.02Bow 1.83 98.17Florence3D-Action 5   我们的方法在 AS3 子集和 Florence3D-Action 数据集上采用交叉个体验证得到的混淆矩阵,每一行表示样本标签,每一列代表识别结果W SD SU PU C T PH PL WAWalkSit downStand upPick upCarryThrowPushPull98.00 1.00 1.0098.00100.00100.00100.0086.00 8.00 1.00100.00100.00Wave 100.00Chap hands 100.00CH2.005.00UTKinect-Action6   UTKinect-Action 数据集上的混淆矩阵,每一行表示样本标签,每一列代表识别结果 AS2 AS3 三个子集,如表 1 所示,每个子集包含8 个动作序列,而且每个子集都互相独立地进行测试。其中子集 AS1 AS2 是具有相似动作的行为聚类,AS3 则是复杂动作的行为聚类。 对于 UTKinect-Action 数据集,为了便于在相同测试条件下进行结果对比,本文采用保留一个序列交叉验证的测试标准[10],即每次只保留一个序列用于测试模型,而其余 199 个序列则用来训练模型。 对于 Florence3D-Action 数据集,本文采用不同个体间交叉验证的测试标准[20],将一半数量执行个体的行为动作序列用来训练模型,而另一半数量执行个体的动作序列用来测试。  0.840.860.880.90.920.940.960.981UTKinect Florence3D MSRAction3D识别率特征数据集未归一化 归一化 图 7  不同特征数据集归一化与否的识别结果对比 计算机学报

[返回]

下一篇:一种新的虚拟血管镜自动导航路径生成方法