CVPR2020目标跟踪论文：Probabilistic Regression for Visual Tracking

Martin大神在CVPR2020的又一跟踪作，快来欣赏：

代码地址：pytracking-master 预训练好的网络地址：prdimp50.pth.tar

将目标跟踪视为每一帧的目标回归问题：

1、使用DCF或Siamese等进行粗略定位，其对于目标背景、杂波和遮挡具有一定鲁棒性【Target Center Regression】；

2、使用单独的网络分支，用于回归目标框【Bounding Box Regression】。

发现问题：

1、大多数跟踪方法关注于目标框中心坐标（即定义为目标的质心）的回归。图中，由于目标外观的微小变化，导致GT框的中心位置发生严重偏移，故而目标中心回归是一项艰巨任务。

2、对GT边界框未进行准确标注，而在训练网络时，标注的这种分歧变化会被忽略。多个注释者对给定对象的注释有所差异，尤其出现运动模糊、遮挡、小目标等情况下尤为明显，所以准确的bbox标签也是一项艰巨任务。

提出方法：

对输入的图像，预测其目标状态的条件概率密度 p(y|x) ，通过最小化其与GT标签分布的KL散度训练回归网络；同时还对噪声标签和产生歧义的部分进行建模，并利用近似积分最小化KL散度。

回归问题：

对于映射函数 $f_{\theta }:X\rightarrow Y$ ，为图像所在空间，为连续空间，并给定样本对 ${(x_{i},y_{i})}_{i}\subset X\times Y$ ，求得映射函数。

1）直接回归法

定义损失函数 $\l (y,y^{'})=\left \| y-y^{'} \right \|_{p}^{p}$ ，直接计算： $L(\theta )=\sum_{i}\l(f_{\theta }(x_{i}),y_{i})$

特点：虽在光流法、深度估计等小有成就。但在目标检测与跟踪、人体姿态估计不太适用。

2）置信度预测回归法

定义置信度回归函数 $s_{\theta }:Y\times X\rightarrow \mathbb{R}$ ，同时对每一个 $s_{\theta }(y,x_{i})$ ，定义一个gt置信度值的伪标签函数 $a(y,y_{i})$ ，其中 $a:Y\times Y\rightarrow R$ 。

定义损失函数 $L=\sum _{i}L(\theta ;x_{i},y_{i})$ ，其中 $L(\theta ;x_{i},y_{i})=\int_{Y}l(s_{\theta }(y,x_{i}),a(y,y_{i}))dy$ 。则最终的映射函数为 $f(x)=\underset{y\in Y}{argmax}s_{\theta }(y,x)$ 。