Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition
AAAI2018
基于skeleton动作识别的时空图卷积网络
一、主要内容:
动态骨骼形态可以自然地表示为人体关节位置的时间序列,以二维或三维坐标的形式表示。图神经网络(GCNs)将卷积神经网络(CNNs)推广到任意结构的图。本文将图神经网络扩展到一个时空图模型,即时空图卷积网络(ST-GCN),设计了一种用于动作识别的骨架序列的通用表示。符合关节自然连通性的空间边和跨连续时间步连接相同关节的时间边。在此基础上构造了多层时空图卷积,使得信息可以沿空间和时间维度进行整合。
本文的主要贡献体现在三个方面:1)提出了一种基于图的神经网络动态骨架建模方法“时空图卷积网络”ST-GCN。2) 针对骨架建模的具体要求,提出了ST-GCN中卷积核的设计原则。3) 在两个大规模的基于骨架的动作识别数据集(动力学和NTU-RGBD)上,该模型与以前使用手工制作零件或遍历规则的方法相比,具有更高的性能,而人工设计的工作量大大减少。
二、相关工作:
1)图卷积网络主要有两种主流方法:
1.基于光谱的观点(spectral perspective)图卷积中的位置信息被看做是以光谱分析的形式。
2.基于空间的观点(spatial perspective)卷积核直接被应用在图节点和他们的邻居节点。
文章采用第二种做法,在空间域构造CNN滤波器,限制每一个滤波只应用到一个节点的一个邻域
2)基于骨架的动作识别:
1.基于手工特征的方法,设计几种手工特征去捕获连接点的运动信息,比如,关节点轨迹的协方差矩阵
2.基于深度学习的方法,循环神经网络,端到端进行动作识别
ST-GCN是第一个将图CNN应用到基于骨架的动作识别任务中。它不同于以往的手工制作的特征捕捉关节运动的动态和递归神经网络端到端学习动作识别模型的方法,可以隐式地利用图卷积的局部位置信息和时序动态信息结合起来。
三、时空卷积网络:
1)pipeline管道概况:从运动捕捉设备或视频中的姿势估计算法中获得骨架数据,是一个帧序列,每个帧都会有一组关节坐标。ST-GCN的输入是图形节点上的关节坐标向量;对输入数据进行多层时空图卷积运算,并在图上生成更高层次的特征图;被标准的SoftMax分类器分类到相应的动作类别。整个模型采用反向传播方法进行端到端的训练。
2)骨骼图构造:骨骼序列通常由每个帧中每个人体关节的二维或三维坐标表示。我们利用时空图来形成骨架序列的层次表示。我们在具有N个关节和T帧的骨架序列上构造了一个无向时空图G=(V,E)。图中骨架序列中所有关节点作为输入,关节的坐标向量和估计置信度组成特征向量。边包括每个帧的骨架内人体关节自然连接和帧间边缘。
3)空间图卷积神经网络:
给定核大小为K×K的卷积算子和一个通道数为c的输入特征映射f,空间位置x处单个通道的输出值可以写成 f o u t ( x ) = ∑ h = 1 K ∑ w = 1 K f i n ( p ( x , h , w ) ) ⋅ w ( h , w ) f_{out}({\bf x})=\sum^K_{h=1}\sum^K_{w=1}f_{in}({\bf p(x},h,w))·{\bf w}(h,w) fout(x)=∑h=1K∑w=1Kfin(p(x,h,w))⋅w(h,w),其中采样函数p(x,h,w)=x+p’(h,w)计算位置x的邻域。权值函数w在c维实空间中提供了一个权值向量用来计算c维输入特征向量的内积。
采样函数:定义在相对于中心位置x的1个相邻像素上的关节节点集。 p ( v t i , v t j ) = v t j ⋅ {\bf p}(v_{ti},v_{tj})=v_{tj}· p(vti,vtj)=vtj⋅
权重函数:在2D卷积中,邻居像素规则地排列在中心像素周围,因此可以根据空间顺序用规则的卷积核对其进行卷积操作。类比2D卷积,在图中,将sampling function得到的邻居像素划分成不同的子集,每一个子集有一个数字标签,因此有 l t i : B ( v t i ) → { 0 , . . . , K − 1 } l_{ti}:B(v_{ti})\rightarrow\{0,...,K-1\} lti:B(vti)→{
0,...,K−1},将一个邻居节点映射到对应的子集标签,权重方程为 w ( v t i , v t j ) = w ′ ( l t i ( v t j ) ) {\bf w}(v_{ti},v_{tj})={\bf w}'(l_{ti}(v_{tj})) w(vti,vtj)=w