一、介绍
这是一篇华中科技大学和IBM人工智能研究中心在2017年ICCV上发表的文章。在这篇文章中,作者提出了一个新奇的联合空间和时域注意力池化网络(ASTPN)来解决视频行人重识别问题。他们提出的方法能够利用到输入视频对之间的相互依赖性,来计算得到各自的特征表示。他们网络中的空间池化层能够从每个视频帧中选择重要的区域,时域注意力池化能够在整个视频序列中选择包含判别信息的帧。这两个池化层都受到距离匹配信息的指导(即孪生网络进行验证任务的损失函数的指导)。作者在iLIDS-VID、PRID-2011、MARS三个数据集上进行了实验,结果显示他们提出的算法超过了state-of-the-art。作者还分析了空间、时域池化单独或联合使用时是怎样促进re-id performance的。
二、作者的方法
2.1 网络结构
作者的网络主体上是一个孪生网络(siamese network),输入一对视频序列probe和gallery,各随机抽取连续的T(T=16)帧每帧经过CNN得到feature map,然后经过空间池化层(金字塔池化层)得到TXD的特征向量矩阵P和G。将各自T个特征向量经过时域注意力池化层得到Tx1的时域注意力权重alpha_p和alpha_g,P、Q的转置分别和alpha_p和alpha_g点乘后得到Dx1维的特征向量v_p和v_g。同时使用验证损失和分类损失来更新网络。
2.2 CNN
作者并没有使用在ImageNet上预训练的网络ResNet、VGG等,而是使用了在VIPeR数据集上预训练过的三个卷积层,卷积层的参数设置如上表所示。前两个卷积层后都有max pool,第三个卷积层后是联合空间注意力池化层。
2.3 联合空间注意力池化层
作者使用的是空间金字塔池化层(spatial pyramid pooling(SPP) layer ,《Spatial pyramid pooling in deep convolutional networks for visual recognition》这篇文章提出),就是将原来的cxwxh的特征图,通过4个不同尺度的池化核max pool成cx8x8,cx4x4,cx2x2,cx1x1的大小。然后将其展开成cx64,cx16,cx4,cx1大小的一维向量,再连接到一起,得到cxL的图片向量r。
2.4 时域注意力结构
2.4.1 RNN
将T帧图片提取的特征向量r1-rT分别送入一个RNN,RNN的递推公式为:
其中U是NxL大小的矩阵,rt是Lx1大小的矩阵,W是NxN的权重矩阵,s的初始状态s0初始化为Nx1的全0向量。o1-ot经过tanh(.)激活函数后作为RNN的输出。这里的RNN利用了时域信息的同时,还将L维的输入降维到N维。
2.4.2 时域注意力机制
虽然RNN的隐藏状态已经能够利用到时域信息,但是包含很多冗余和背景噪声,所以作者提出了如下时域注意力机制。probe和gallery经过RNN后得到了TxN大小的P、G矩阵,作者学习一个NxN大小的矩阵U:
然后利用上式得到TxT大小的矩阵A,然后对A按列max pool再进行softmax得到probe的注意力权重alpha_p (Tx1),对A按行max pool再进行softmax得到gallery的注意力权重alpha_g (Tx1)。根据注意力权重对P和Q进行加权平均后得到probe和gallery的向量特征v_p和v_g。
2.5 损失函数
得到probe和gallery的向量特征v_p和v_g后,根据孪生网络的一般结构,按照上式计算验证损失。同时作者还使用了分类损失,所以总的损失函数是:
三、实施细节
- 每个视频选择连续的16帧,即T=16
- 测试时第一个摄像头下的视频作为probe,第二个摄像头下的视频作为gallery。正对中包含摄像头1下的一个video和摄像头2与之对应的video。负对包含摄像头1下的一个video和摄像头2与随机选取的之不对应的video。训练中正负对交替输入,当摄像头1下所有视频序列都送完作为一个epoch
- 使用了随机裁切和镜像来做数据增强(同一个视频裁切同一个区域,镜像对整个视频序列镜像)
- 图像被转换到YUV颜色空间,每个颜色通道进行0均值单位方长的归一化。使用了图像的光流信息,光流图像通过Lucas-Kanade method生成,每个光流通道归一化到[-1,1]的范围
- 使用SGD,初始学习律0.001,batch size设为1
- 作者的方法适合当个摄像头single-shot的数据集,这对PRID和iLIDS很合适,对于MARS数据集,作者随机选取了两个摄像头下的video
四、实验结果
在iLIDS-VID和PRID上的实验结果以及与state-of-the-art的对比:
在MARS上的实验结果以及与state-of-the-art的对比:
可以看到,表现相比于前两个数据集有不小的下降,作者解释是因为MARS数据集包含较大的背景噪声(可能也与作者只利用了2个摄像头下的数据有关)
在iLIDS上训练,直接在PRID上测试的实验结果:
成分分析---与只使用空间注意力池化(ASPN)、只使用时间注意力模块(ATPN)的对比:
五、结论
作者提出了ASTPN,一个联合空间-时间池化的视频行人重识别算法,能够联合学习输入视频序列的特征表示和相似度度量。ASTPN拓展了标准的RNN-CNN网络通过将池化分解为空间特征图池化核和对RNN输出的结果进行时间注意力池化。从效果上看,明确的注意力(空间)、含糊的注意力(时间)在每个池化阶段起到了作用,能够在特征学习中选择关键的区域和帧。作者通过在iLIDS-VID, PRID-2011和MARS数据集上的实验证明了ASTPN显著优于标准的max and temporal pooling approaches. 通过控制变量实验,作者证明了联合池化相比于空间/时间单独池化方法的有效性。此外,ASTPN非常易于实施,而且计算比较简单相比于通常的max pooling方法,使其成为设计视频行人重识别RNN-CNN网络的一个理想的选择