Bootstrap

2024 3D目标检测相关论文

UniPAD: A Universal Pre-training Paradigm for Autonomous Driving (UniPAD:一种通用的自动驾驶预训练范式)

在自动驾驶的背景下,有效的特征学习的意义得到了广泛的认可。虽然传统的3D自我监督的预训练方法已经显示出了广泛的成功,但大多数方法都遵循了最初为2D图像设计的想法。在本文中,我们提出了一种新的UniPAD,一种应用三维体积可微渲染的自监督学习范式。UniPAD隐式地编码了三维空间,促进了连续的三维形状结构的重建和其二维投影的复杂外观特征。我们的方法的灵活性使我们能够无缝地集成到2D和3D框架中,使我们能够更全面地理解场景。我们通过在各种三维感知任务上进行广泛的实验,证明了UniPAD的可行性和有效性。我们的方法显著提高了基于激光雷达、照相机和激光雷达相机的基线,分别为9.1、7.7和6.9 NDS。值得注意的是,我们的预训练管道在nuScenes验证集上实现了73.2NDS,3D语义分割实现了79.4 mIoU,实现了最先进的比较结果。

图像中的表示学习已经得到了[1,3,8,69,74,75]的良好发展,并在各种下游任务中显示出了其作为骨干初始化的能力。基于对比的方法,如MoCo [26]和MoCov2 [11],通过区分不同增强样本之间的相似性来学习图像的表示。基于mae的方法[24,67]通过恢复掩蔽补丁获得了很好的泛化能力。在自动驾驶中,在ImageNet [19]上预训练的模型被广泛应用于图像相关任务[29,38,40,43,46,50,86]。例如,为了弥补三维先验在三维目标检测等任务中的不足,通常利用深度估计[60]和单目三维检测[73]作为额外的预训练技术。

自动驾驶的神经渲染利用神经网络从三维场景表示[7,56,58,82,84,94]中区别渲染图像。这些方法大致可以分为两类:感知和模拟。nerf能够捕获语义和准确的几何形状,逐渐被用于完成不同的感知任务,包括全光分割[23]、目标检测[82,83]、分割[35]和实例分割[103]。在仿真中,MARS [79]基于NeRF分别对前景对象和背景环境进行建模,使其在自动驾驶仿真中能够灵活地进行场景控制。考虑到有限的标记激光雷达点云数据,NeRF-LiDAR [100]提出在语义上生成现实的点云激光雷达模拟的标签。此外,READ [41]探索了多种采样策略,使综合大规模驾驶场景成为可能。受他们的启发,我们新地使用了NeRF,目的是普遍的预训练,而不是新的观点合成。

IS-FUSION: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection  (CVPR2024)

鸟瞰图 (BEV) 表示已成为描述自动驾驶场景中 3D 空间的主要解决方案。然而,BEV 表示中的对象通常表现出小尺寸,相关的点云上下文本质上是稀疏的,这给可靠的 3D 感知带来了巨大的挑战。在本文中,我们提出了 IS-FUSION,这是一种创新的多模态融合框架,可以联合捕获实例级和场景级上下文信息。IS-FUSION 本质上不同于现有方法,这些方法只关注 BEV 场景级融合,通过显式结合实例级多模态信息,从而促进以实例为中心的任务,如 3D 目标检测。它包括分层场景融合(HSF)模块和实例引导融合(IGF)模块。HSF应用点到网格和网格到区域转换器来捕获不同粒度的多模态场景上下文。IGF 挖掘实例候选,探索它们的关系,并为每个实例聚合本地多模态上下文。然后,这些实例作为增强场景特征的指导,并产生实例感知的BEV表示。在具有挑战性的 nuScenes 基准测试中,IS-FUSION 迄今为止优于所有已发布的多模态工作。代码可在以下网址获得:https://github.com/yinjunbo/IS-Fusion

;