Bootstrap

CFCF目标跟踪

论文全名:Good Features to Correlate for Visual Tracking

论文摘自IEEE TIP 2018,由Erhan GundogduGithub网址)和A. Aydın Alatan撰写。

摘要

作者提出:基于相关滤波(CFB)跟踪的深度全卷积模型,提出了反向传播算法。

效果:减轻了对训练分类网络的依赖性。

1 前言

前期的跟踪方法:(1)稀疏生成方法:L1APG等;(2)支持向量机:Structured SVM;(3)深度学习:MDNet,Deeptrack;(4)继MOSSE之后,算法使用VGG-M预训练网络(在ImageNet训练)中的卷积层+CF,其计算复杂度较高。

作者提出:学习完全卷积神经网络的问题,为相关运算生成有用的特征映射。

框架:一个全卷积网络。将同一对象的两个图像块送入训练,从top层获得图像块的特征图后,在template块计算相关滤波器,使得估计值与期望响应损失值最小(通过误差的反向传播随机梯度下降过程)。

贡献

•对相关滤波器损失函数,提出训练全卷积深度网络框架与反向传播网络

•在最后一层网络(通道数较多)后,加入一个anxiliary(辅助)层(目的:使通道减少)。

•网络训练中集成了DSST、SAMF和C-COT

3节:CFB公式,4节:特征学习方法,5节:实验及细节。6节:未来展望。

2  前期工作

【1】判别法:在初始帧的感兴趣区域提取正负样本,用分类器模型(分类为对象或背景)进行训练,即查找分类器最高分数的候选区域作为目标位置。

算法:基于Haar-like特征LBP特征训练的MIL与OAB,基于SVM的Struck SVM与DLSSVM,基于深度学习分类方法的MDNet与Deeptrack。

特点:必须在每个候选位置评估分类器,计算复杂度较高。

【2】生成法:在初始帧建立对象和背景(可选性)的外观模型,然后将预测的目标(与之前帧外观模型最相似的)放入模型更新中。

算法IVT(在线子空间学习法),KMS(根据目标亮度直方图表示模型)。稀疏方法的L1与L1APG、MTT(对不同样本也是稀疏的),基于非负矩阵分解的CONMF。

特点:(与判别法相同)必须在每个候选位置评估分类器,计算复杂度较高。

【3】相关滤波法:最小化期望响应与滤波器和对象块的循环相关之间的平方误差之和,并利用快速傅里叶变换的卷积定理,在频域中减少计算复杂度。

算法MOSSEDSST(基于MOSSE加入HOG与尺度转换)、KCF(加入multi-channel)、KCFDPSKCF、RPAC(基于KCF的尺度评估等方法)、CFLB、SRDCF(引入空间正则化)、CSR-DCF(引入空间约束)、CF+AT(解决循环移位的训练块)、Staple(加入颜色特征以区分目标与背景)、CF+CA(考虑目标周围的背景)。

【4】相关滤波+CNN

算法HCFT(加入AlexNet/VGG-VD网络)DeepSRDCF(VGG-M的conv-5)(使用预训练的深CNN模型作为特征映射进行相关映射)、C-COT(提出连续域的相关滤波器)、CFNetDCFNet(训练全卷积网络用于相关滤波跟踪)。

特点:(1)CFCF提出multiple channel相关滤波损失函数,CFNet提出逐元素逻辑损失函数;(2)CFNet与DCFNet建立在轻量级架构,而CFCF的网络模型更大,性能更好;(3)CFCF中的反向传播公式基于傅里叶域中的广义链法则与实信号的共轭对称性,而CFNet的反向传播基于差分伴随;

【5】CNN架构

算法SINT+(训练Siamese网络,输出目标的各种相似特征)、GOTURN(在CaffeNet上离线训练侯选快中目标位置)、Siamese-fc(将前一帧的目标与当前帧的候选块作卷积相关操作)、RTT(使用RNN对目标与背景进行建模估计置信度图)、SANet(对物体结构进行空间建模)、RATM(对RNN建模直接预测目标运动)

特点SINT+对候选块的选择计算复杂度高;GOTURN候选评估计算复杂度低;

【6】组合法

算法:RPAC(在目标不同部分运行多个相关跟踪算法)、POSSE(基于MOSSE的目标检测)、RPT(基于KCF)、MEEM(基于SVM判别器的熵最小化准则算法)、VTS(Markov Chain Monte Carlo采样法)、Co-tracking(混合特征类型的各种跟踪器组合)、SDC+SGM文献[60](生成和判别方法的混合方法)、TCNN(基于MDNet的树结构方法)。

回顾相关滤波公式(DSST+C-COT

4  特征学习框架

【1】准备工作

(1)输入:离散变量(三元组),其中,为以目标为中心的temple块,为不以目标为中心的测试块,是期望响应(中目标正确偏移的峰值),其中,表示图像块的第个分量向左循环移位个的结果。

(2)集成在相关滤波中图像块的特征生成函数具有移位不变性,即若满足,那么,其中是二维离散信号。

(3)记:为共轭,为对应元素乘积。

【2】训练网络参数θ(随机梯度下降(SGD))

对于d维特征图,对于N个三元组:

第一步:分别将测试块与temple块送入全卷积网络,得到

第二步:将输出与期望相应送入滤波器更新【与DSST中滤波器更新相同()】得到最小值:

第三步:将第二步得到的值与做卷积(记),计算其与期望相应的2-范数,损失函数为【与DSST损失函数定义不同,作者删去了正则项】。

第四步:

目的:训练θ使损失函数最小。

【2-1】梯度计算

方法:多变量链式法则,

第一步:通过上图的分析,变量θ可以写做经过中间变量xy计算出的损失,有:,其中,为特征通道。

第二步:【求解】对于第一步式中第二个变量,对y(经过中间变量h),有:,其中,为特征通道。

第三步:【求解】由式(2)的卷积定义,记,那么式(9)(总损失函数)可以写成:,对于第m个样本对,满足:\Leftrightarrow,有:。那么

第四步,【求解】,同理,由第三步的卷积方法,满足\Leftrightarrow,有,那么

第五步,【求解】引入离散傅里叶变换,即将其在傅里叶域(频域)中分析,有,其中,F^{-1}=F^{H}

第六步,【求解】根据式(3),有H^{k}=\frac{Y^{k}\odot \hat{G}^{*}}{\sum_{m=1}^{d}Y^{m}\odot Y^{m*}+\lambda },令其分母,由于各变量都是独立的,故有:。其中I(k==l)=\left\{\begin{matrix} I &(k=l) \\ 0&(k\neq l) \end{matrix}\right.(循环反转矩阵)。

第七步,对于第二步的,可以通过后面的步骤(第三步:,第五六步:,)

得出:,其中,

注意:训练期间,对所有随机采样的图像块都进行GD优化。

特点:特征通道彼此独立。

【2-2】降低计算复杂度

计算DFT复杂度为O(Plog(P))(P是信号的长度),对于d个特征图,复杂度为O(dPlog(P)),对于d值32,64和128,训练速度分别为36,16和6帧/秒。

解决方法:在VGG的conv-5上加一个较少特征映射的辅助层,

目的特征图提取的质量,降低网络的层数

方法:比较具有两个特征图的网络层具有单个特征图的网络层(前一层的两个特征图的总和)的loss函数。

第一步:计算,与【2-1】的表示不同,这里测试块为,temple块为,即:

那么相关滤波输出为:,由于跟踪时连续帧间目标移动较小,故可以看做在离散傅里叶域中满足(μ为目标外观变化引起的噪声​​),其误差

第二步:计算,在离散傅里叶域中,在前一个网络层输出的特征图满足,其中,有

根据式(3)定义相关滤波输出为:

其误差为:

第三步:比较两个损失函数:,可以看出,当噪声减少时,二者误差也在相应增加,故用前一卷积层的输出即可达到相应效果,且复杂度不变。

5  实验

【1】数据集

(1)测试集:OTB-2013、OTB-2015和VOT2016。

(2)训练集:CFCF VOT2015(VOT2015中60个具有不同属性的序列)、CFCF ILSVRC(ImageNet2015)

(3)网络输入:测试块与temple块的大小为

两帧图像:测试块temple块的帧间差为高斯随机变量,标准差为5帧。

具体裁剪:以的比例裁剪,其中,temple块以目标为中心,测试块是在temple块基础上有些许随机偏移,行列偏移量范围固定在内。

【2】CNN架构

(1)对于训练集CFCF VOT2015

第一个输出 单个特征映射
第二个输出 多个特征映射

DSST CFCF网络Fig.2a+DSST)、DSST MCFCF网络Fig.2b+DSST)

架构:4个卷积层组成,在每个卷积层后都有归一层。前三个为ReLU层(防止出现零情况,leak值为0.1)。为了保持特征图的空间大小不变,卷积层有适当的padding(对3×3核,padding值为1)。

输出:

(2)对于训练集CFCF ILSVRC

CFCF网络VGG-M中的conv-0、conv-1与conv-5(与C-COT相同)+微调32个特征图的辅助层)。

CFCF

训练期间,51%时间计算损失函数的梯度项(),14%和34%时间分别用于卷积层的前向和后向传播。3.5%时间更新权重。

【3】测试

(1)OTB-2013训练集:CFCF VOT2015

(2)OTB-2013和OTB-2015训练集:CFCF ILSVRC

跟踪期间,55%时间用于相关滤波器学习,17%用于CNN特征提取,11%用于对象检测。

注意:VGG特征=从VGG-M中提取的conv-0、conv-1与conv-5层的特征

算法:SAMF_VGG(SAMF+VGG特征)、SAMF_CFCF(学习率减半+VGG特征+CFCF)、CCOT_CFCF(CCOT+VGG-M微调)

(3)VOT2016训练集:CFCF ILSVRC

【4】消融实验(测试集:VOT2016,训练集:CFCF ILSVRC)

(1)颜色:

(2)网络层分析:

(3)训练集大小:

网络层:VGG-M前四个卷积层
输出:32个特征通道+color的3个通道

6  结论

作者提出了一种通用框架训练全卷积网络:利用反向传播和随机梯度下降算法训练全卷积网络。

;