本文可以借鉴的另一篇博客:
【3D 目标检测】PVRCNN详解(个人阅读心得并总结其他人的结论得出的文章)_JY.Wang_China的博客-CSDN博客
M3DETR:Multi representation, Multi scale, Mutual relation 3D Object Detection with Transformers
一 核心思路
本文的主要思想在于将point-feature、voxel-feature、bird-eye view通过一系列的transformer得到RoI-Align需要用到的refine特征。是anchor-based的方法。
transformer利用multi-head attention来减少不同语义信息之间的的语义差距。本文中作者将自己的transformer方法称为M3 transformer,也就是有三个transformer,multi-representation、multi-scale、multi-relation transformer。结构草图如下所示:
二 核心步骤
整体框架如下图所示:
我们的目标是在一个joint embedding space上与transformer进行multi-representation、multi-scale、multi-relation的融合。主要包含如下三大步骤:
1、使用VoxelNet、PointNet和2D ConvNet为生成相同点云的不同embedding特征。
2、 使用M3transformer融合这些embedding features,利用multi-representation、multi-scale feature embedding和models mutual relationships之间的相互关系。
3、使用detection heads network进行3D detection,包括RPN和R-CNN stage。
2.1 Multi-Representation Feature Embeddings
原始输入点云,首先将它们编码成三个不同的embedding space,即voxel,point和bird’s-eye-view features。
1、Points
通常,在整个点云场景中有超过10K个original points。为了在不消耗大量内存的情况下,有效地覆盖整个点集,采用了最远点采样(FPS)算法采样n个keypoints,记为。采用PointNet++和PV-RCNN的Set Abstraction和Voxel Set Abstraction模块,在原始点云P中获取的point features,在VoxelNet中得到的特征获取的voxel特征。
2、voxel
这里是使用简单的VoxelNet实现的,如上图中间的VoxelNet流程,最终通过下采样得到voxel features
3、Bird’s-eye-view
原文中说是采用VoxelNet的最后一层特征作为输入,得到BEV的features,,然后使用bi-binary interpolation方法,得到的BEV特征。(这个地方在上图的下部分看着像是用每一层的voxel feature分别进行BEV得到point的BEV特征,具体做法还要参考代码。)
2.2 Multi-representation, Multi-scale and Mutual-relation Transformer
这个步骤的大体思路如上图所示,就是将 作为输入,输入到Transformer中得到输出特征。其目的是为了在第二阶段的RoI pooling时,将这一步得到的点的特征作为精细化处理的特征。具体做法如下图所示:
M3 transformer主要由两大部分组成,Multi-scale and Multi-representation Transformer和Multi-relation Transformer。
1、Multi-scale and Multi-representation Transformer
2、Multi-relation Transformer
2.3 Detection Heads Network
这里也就是RPN与R-CNN操作,RPN操作很常规,先选择出一些合适的proposal,之后将这些proposal输入到R-CNN网络中进行更精细化的处理。
在R-CNN阶段,借鉴了PVRCNN的第二阶段的RoI grid pooling方法,如上图所示,使用M3 transformer得到的n个点的point features作为精细化处理的特征。
三 总结
本文使用到transformer的方法,在PVRCNN的基础上进行改进,创新点是对transformer进行稍微的改进,效果还可以。
参考文献
[1] Guan T , Wang J , Lan S , et al. M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers. 2021.