Bootstrap

【DETR用于3D目标检测】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

论文简介:

本文介绍了一个用于多摄像机三维目标检测的框架。现有的工作是直接从单目图像中估计三维边界框,或使用深度预测网络从二维信息中生成三维目标检测的输入,与此不同,本文的方法直接在三维空间中操作预测。

DETR3D 从多个相机图像中提取二维特征,然后使用一组稀疏的 3D 对象查询来索引到这些二维特征中,使用摄像机转换矩阵将 3D 位置链接到多视图图像,然后对每个对象查询进行边界框预测,使用集合到集合的损失来测量地面真实值和预测之间的差异。

这种自上而下的方法优于自下而上的方法,即对象边界盒预测遵循每像素深度估计,因为它不受深度预测模型引入的复合误差的影响。此外,该方法不需要后处理,如非最大抑制,显著提高了推理速度,并在 nuScenes 自动驾驶基准测试上取得了最先进的性能。

论文贡献:

  • 本名为提出了一个基于 RGB 图像的三维目标检测模型。与现有的工作不同,DETR3D 在最后阶段结合了来自不同相机视图的对象预测,并融合了来自每一层计算中所有相机视图的信息。据我们所知,这是第一次尝试将多摄像机检测转换为三维集对集的预测;
  • 本文介绍了一个通过反向几何投影连接二维特征提取和三维边界盒预测的模块。它不会受到二级网络不准确深度预测的影响,并且通过将 3D 信息反向投影到所有可用帧上,无缝地使用来自多个摄像机的信息;
  • 与 Object DGCNN 类似,该方法不需要后处理,如不需要 NMS。在相机重叠区域,本文的方法大大优于其他方法。
  • 作者发布了本文的代码,以促进可复现性和未来的研究;

具体实

;