自动驾驶-BEV检测篇五：PETR v2

论文地址: PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

代码地址：https://github.com/megvii-research/PETR

1、引言

PETR v2是对PETR的改进，探索了在3D空间中进行时域建模的有效性，不同于BEVFormer和BEVDet4D选择bird-eye-view(BEV)空间进行时序特征对齐，并利用BEV特征进行分割的解决方案。PETR v2直接利用前一帧的时间信息来增强3D目标检测，也就是直接在3D空间中进行时序特征对齐。具体来说，将PETR中的3D位置嵌入（3D PE）扩展为时域建模，实现不同帧目标位置的时间对齐，再结合不同视角相机的图像特征进行特征融合来进行3D空间的位置编码。同时，为了支持高质量的BEV分割，PETR v2添加一组分割query，每个分割query负责分割BEV地图的一个特定patch，以至于达到高质量BEV分割的效果。

总体步骤：

（1）通过图像特征提取backbone对不同视角的相机图像进行特征提取，和上一时刻提取的图像特征在batch维度进行concat拼接。

（2）同PETR一样初始化一个[H,W,D,3]的3D网格点，并使用相机坐标转换矩阵转换为视锥，并和t-1时刻的视锥进行concat拼接。（这边视角转换的过程可以去看我的PETR那篇文章）。

（3）将t-1~t时刻的2D图像特征和t-1~t时刻的3D Coordinates进行encoder交互，也就是进行3D信息的位置编码，得到最终encoder的输出(也就是decoder模块的输入)。

（4）初始化一个object query，和encoder模块的最终输入进行交互，得到最终的3D bounding box。（这里还针对不同的任务初始化了多个query，例如Lane queries车道线检测 Seg queries和Det queries）。

注:下面的pipeline部分就不讲解代码，主要讲一下对论文部分的理解。

2、pipeline

2.1 Encoder

2.1.1 Temporal Modeling

原理：

Temporal Modeling也就是时间对齐的，作用是将t−1时刻的三维坐标变换为t时刻的坐标系(见图2)，这中间其实就涉及到了一个比较关键的空间坐标变换问题。

这里用一个比较抽象的数学模型来进行解释：

上式中，i表示相机的编号，c(t)表示t时刻的相机坐标系，l(t)表示t时刻的激光坐标系，e(t)表示t时刻的车体坐标系,Ki表示第i个相机的坐标转换矩阵，Pm(t)表示t时刻的原始相机生成的3D网格坐标，而生成之后的结果就表示最终的到视锥体(这个过程可以用图3来刻画)。