【3D 目标检测】M3DETR

本文可以借鉴的另一篇博客:

【3D 目标检测】PVRCNN详解(个人阅读心得并总结其他人的结论得出的文章)_JY.Wang_China的博客-CSDN博客

M3DETR:Multi representation, Multi scale, Mutual relation 3D Object Detection with Transformers

一核心思路

本文的主要思想在于将point-feature、voxel-feature、bird-eye view通过一系列的transformer得到RoI-Align需要用到的refine特征。是anchor-based的方法。

transformer利用multi-head attention来减少不同语义信息之间的的语义差距。本文中作者将自己的transformer方法称为M3 transformer，也就是有三个transformer，multi-representation、multi-scale、multi-relation transformer。结构草图如下所示：

二核心步骤

整体框架如下图所示：

我们的目标是在一个joint embedding space上与transformer进行multi-representation、multi-scale、multi-relation的融合。主要包含如下三大步骤：

1、使用VoxelNet、PointNet和2D ConvNet为生成相同点云的不同embedding特征。

2、使用M3transformer融合这些embedding features，利用multi-representation、multi-scale feature embedding和models mutual relationships之间的相互关系。

3、使用detection heads network进行3D detection，包括RPN和R-CNN stage。

2.1 Multi-Representation Feature Embeddings

原始输入点云，首先将它们编码成三个不同的embedding space，即voxel，point和bird’s-eye-view features。

1、Points

通常，在整个点云场景中有超过10K个original points。为了在不消耗大量内存的情况下，有效地覆盖整个点集，采用了最远点采样(FPS)算法采样n个keypoints，记为。采用PointNet++和PV-RCNN的Set Abstraction和Voxel Set Abstraction模块，在原始点云P中获取的point features,在VoxelNet中得到的特征获取的voxel特征。