Bootstrap

CVPR2020目标跟踪论文:Probabilistic Regression for Visual Tracking

Martin大神在CVPR2020的又一跟踪作,快来欣赏:

代码地址:pytracking-master  预训练好的网络地址:prdimp50.pth.tar

将目标跟踪视为每一帧的目标回归问题:

     1、使用DCFSiamese等进行粗略定位,其对于目标背景、杂波和遮挡具有一定鲁棒性Target Center Regression

     2、使用单独的网络分支,用于回归目标框Bounding Box Regression

发现问题:

1、大多数跟踪方法关注于目标框中心坐标(即定义为目标的质心)的回归。图中,由于目标外观的微小变化,导致GT框的中心位置发生严重偏移,故而目标中心回归是一项艰巨任务。

2、对GT边界框未进行准确标注,而在训练网络时,标注的这种分歧变化会被忽略。多个注释者对给定对象的注释有所差异,尤其出现运动模糊、遮挡、小目标等情况下尤为明显,所以准确的bbox标签也是一项艰巨任务。

提出方法:

对输入的图像x,预测其目标状态y的条件概率密度p(y|x),通过最小化GT标签分布KL散度训练回归网络;同时还对噪声标签和产生歧义的部分进行建模,并利用近似积分最小化KL散度。

回归问题:

对于映射函数f_{\theta }:X\rightarrow YX为图像所在空间,Y为连续空间,并给定样本对{(x_{i},y_{i})}_{i}\subset X\times Y求得映射函数。

1)直接回归法

定义损失函数\l (y,y^{'})=\left \| y-y^{'} \right \|_{p}^{p},直接计算:L(\theta )=\sum_{i}\l(f_{\theta }(x_{i}),y_{i})

特点:虽在光流法、深度估计等小有成就。但在目标检测与跟踪、人体姿态估计不太适用

2)置信度预测回归法

定义置信度回归函数s_{\theta }:Y\times X\rightarrow \mathbb{R},同时对每一个s_{\theta }(y,x_{i}),定义一个gt置信度值的伪标签函数a(y,y_{i}),其中 a:Y\times Y\rightarrow R

定义损失函数L=\sum _{i}L(\theta ;x_{i},y_{i}),其中L(\theta ;x_{i},y_{i})=\int_{Y}l(s_{\theta }(y,x_{i}),a(y,y_{i}))dy。则最终的映射函数为f(x)=\underset{y\in Y}{argmax}s_{\theta }(y,x)

特点以预测的置信度值s(y,x)编码,能够灵活的表示不确定性。.s(y,x)很大程度取决于Loss的选择与生成训练的伪标签,本身没有明确的解释,只能充当最大化的量。而且对于伪标签a(y,y_{i}),通过具有更宽的高置信度峰来封装问题1中出现的情况。

置信度预测回归相比直接回归的优点:

1,在Y空间中,前者更能捕获到不确定性、多假设与歧义的存在。

2、前者更能轻松利用XY空间共享的对称性,e.g平移不变性。

Loss的计算

在本文中,作者计算GT分布p(y|y_{i})与预测的条件概率密度p(y|x_{i},\theta )之间的KL散度:

对于公式(8),作者提出了两种方法来近似:

1)网格采样

通过评估CNNy处的输出得到s_{\theta }(y,x)=f_{\theta}(x)(y\)(平移不变性),其中,f_{\theta}是一个CNN网络。

\{y^{k}\}_{k=1}^{K}\subset Y为作用在CNN网络f_{\theta}(x)网格位置的一组集合。A为单个网格单元的面积。最终的Loss是所有L_{i}的平均值。

特点:该方法不能很好的缩放到更高的维度,而且刚性网格会引起采样偏差

2)蒙特卡洛积分

其中,y_{i}^{(k)}\sim q(y|y_{i})是从伪标签中提取的样本,q(y|y_{i})是覆盖p(y|x_{i},\theta)与 p(y|y_{i})的区域。

特点:需要对网络s_{\theta }(y_{i}^{(k)},x)进行多次评估。

回归训练

1TCR目标中心回归:

由于网络为全卷积,故采用网格采样近似KL散度。

简单地,设,得到

定义Loss

DiMP推导不同,作者在最速下降公式中,用二次牛顿法代替高斯牛顿法:

其中,

由链式法则可得:

那么公式(17b)的分母可以表示为:

2BBR目标框回归:

进行积分以建立bbox标签中的噪声和不确定模型,利用蒙特卡洛积分最小化KL散度文献18表明,以annoy_{i}为中心的简单高斯混合可以有效地进行bbox回归

回归方法比较

L2:使用DiMPBBR的标准平方损失

R-L2:使用DiMPTCRL^{2}损失

NLL:最小化的负对数似然函数

标签不确定性分析

结论\sigma过高 (即标签过于不确定)会影响输出,过低则会使输出达到次优点。故正确建模标签不确定性对视觉跟踪非常重要。

不同算法结果比较

 

;