三维目标检测论文：Deep Hough Voting for 3D Object Detection in Point Clouds

3D目标检测框架VoteNet

Charles R. Qi，Or Litany，何恺明，Leonidas J. Guibas等

当前主流的3D目标检测方法，很大层度上受2D检测器的影响。充分利用2D检测器提取3D建议框，或将3D点云转换为规则的网格或利用2D图像提取锥形区域可参阅（https://blog.csdn.net/u011507206/article/details/89106892）。该篇文章直接检测点云中的物体。

论文：https://arxiv.org/pdf/1904.09664.pdf

下文转自：https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652043695&idx=2&sn=030a2c4a3d9d13c69dcb8a4a358487b4

在这篇论文中，研究人员回归第一原则，为点云数据构建了一个尽可能通用的3D检测pipeline。然而，由于数据的稀疏性，直接从场景点预测边界框参数时面临一个主要挑战：一个3D物体的质心可能远离任何表面点，因此很难用一个步骤准确地回归。

为了解决这一问题，研究人员提出VoteNet，这是一个基于深度点集网络和霍夫投票的端到端3D目标检测网络。

该模型设计简单，模型尺寸紧凑，而且效率高，在ScanNet和SUN RGB-D两大真实3D扫描数据集上实现了最先进的3D检测精度。值得注意的是，VoteNet优于以前的方法，而且不依赖彩色图像，使用纯几何信息。

VoteNet点云框架：直接处理原始数据，不依赖2D检测器

3D目标检测的目的是对3D场景中的对象进行定位和识别。更具体地说，在这项工作中，我们的目标是估计定向的3D边界框以及点云对象的语义类。

与2D图像相比，3D点云具有精确的几何形状和对光照变化的鲁棒性。但是，点云是不规则的。因此，典型的CNN不太适合直接处理点云数据。为了避免处理不规则点云，目前的3D检测方法在很多方面都严重依赖基于2D的检测器。例如，将Faster/Mask R-CNN等2D检测框架扩展到3D，或者将点云转换为常规的2D鸟瞰图像，然后应用2D检测器来定位对象。然而，这会牺牲几何细节，而这些细节在杂乱的室内环境中可能是至关重要。

在这项工作中，我们提出一个直接处理原始数据、不依赖任何2D检测器的点云3D检测框架。这个检测网络称为VoteNet，是点云3D深度学习模型的最新进展，并受到用于对象检测的广义霍夫投票过程的启发。

图1：基于深度霍夫投票模型的点云3D目标检测

我们利用了PointNet++，这是一个用于点云学习的分层深度网络，以减少将点云转换为规则结构的需要。通过直接处理点云，不仅避免了量化过程中信息的丢失，而且通过仅对感测点进行计算，利用了点云的稀疏性。

虽然PointNet++在对象分类和语义分割方面都很成功，但很少有研究使用这种架构来检测点云中的3D对象。

一个简单的解决方案是遵循2D检测器的常规做法，并执行dense object proposal，即直接从感测点提出3D边界框。然而，点云的固有稀疏性使得这种方法不适宜。

在图像中，通常在目标中心附近存在一个像素，但在点云中却不是这样。由于深度传感器仅捕获物体的表面，因此3D物体的中心很可能在远离任何点的空白空间中。因此，基于点的网络很难在目标中心附近聚集场景上下文。简单地增加感知域并不能解决这个问题，因为当网络捕获更大的上下文时，它也会导致包含更多的附近的对象和杂物。

为此，我们提出赋予点云深度网络一种类似于经典霍夫投票(Hough voting)的投票机制。通过投票，我们基本上生成了靠近对象中心的新的点，这些点可以进行分组和聚合，以生成box proposals。

与传统的多独立模块、难以联合优化的霍夫投票相比，VoteNet是端到端优化的。具体来说，在通过主干点云网络传递输入点云之后，我们对一组种子点进行采样，并根据它们的特征生成投票。投票的目标是到达目标中心。因此，投票集群出现在目标中心附近，然后可以通过一个学习模块进行聚合，生成box proposals。其结果是一个强大的3D物体检测器，它是纯几何的，可以直接应用于点云。

我们在两个具有挑战性的3D目标检测数据集上评估了我们的方法：SUN RGB-D数据集和ScanNet数据集。在这两个数据集上，仅使用几何信息的VoteNet明显优于使用RGB和几何甚至多视图RGB图像的现有技术。我们的研究表明，投票方案支持更有效的上下文聚合，并验证了当目标中心远离目标表面时，VoteNet能够提供最大的改进。

综上所述，我们工作的贡献如下：

在通过端到端可微架构进行深度学习的背景下，重新制定了霍夫投票，我们称之为VoteNet。
在SUN RGB-D和ScanNet两个数据集上实现了最先进的3D目标检测性能。
深入分析了投票在点云3D目标检测中的重要性。

深度霍夫投票(Deep Hough Voting)

传统的霍夫投票2D检测器包括离线和在线两个步骤。

首先，给定一组带有带注释的对象边界框的图像集，使用存储在图像补丁(或它们的特性)和它们到相应目标中心的偏移量之间的映射构建一个codebook。在推理时，从图像中选择兴趣点以提取周围的补丁(patch)。然后将这些补丁与codebook中的补丁进行比较，以检索偏移量并计算投票。由于对象补丁倾向于一致投票，因此集群将在目标中心附近形成。最后，通过将集群投票追溯到它们生成的补丁来检索对象边界。

我们确定这种技术非常适合我们感兴趣的问题，有两个方面：

首先，投票是针对稀疏集合设计的，因此很自然地适合于点云。

其次，它基于自底向上的原理，积累少量的局部信息以形成可靠的检测。

然而，传统的霍夫投票是由多个独立的模块组成的，将其集成到点云网络仍然是一个开放的研究课题。为此，我们建议对不同的pipeline部分进行以下调整：

兴趣点(Interest points)由深度神经网络来描述和选择，而不是依赖手工制作的特性。

投票(Vote)生成是通过网络学习的，而不是使用代码本。利用更大的感受野，可以使投票减少模糊，从而更有效。此外，还可以使用特征向量对投票位置进行增强，从而实现更好的聚合。

投票聚合(Vote aggregation)是通过可训练参数的点云处理层实现的。利用投票功能，网络可以过滤掉低质量的选票，并生成改进的proposals。

Object proposals的形式是：位置、维度、方向，甚至语义类，都可以直接从聚合特征生成，从而减少了追溯投票起源的需要。

接下来，我们将描述如何将上述所有组件组合成一个名为VoteNet的端到端网络。

VoteNet 的架构

图2描述了我们提出的端到端检测网络VoteNet的架构。整个网络可以分为两部分：一部分处理现有的点来生成投票；另一部分处理虚拟点——投票——来提议和分类对象。

图2：用于点云中3D目标检测的VoteNet架构

给定一个包含N个点和XYZ坐标的输入点云，一个主干网络(使用PointNet++实现)，对这些点进行采样和学习深度特性，并输出M个点的子集。这些点的子集被视为种子点。每个种子通过投票模块独立地生成一个投票。然后将投票分组为集群，并由proposal模块处理，生成最终的proposal。

实验和结果

我们首先在两个大型3D室内目标检测基准上，将我们基于霍夫投票的检测器与之前最先进的方法进行比较。

然后，我们提供了分析实验来了解投票的重要性、不同的投票聚合方法的效果，并展示了我们的方法在紧凑性和效率方面的优势。

最后，我们展示了我们的检测器的定性结果。论文附录中提供了更多的分析和可视化。

表1：SUN RGB-D val数据集上的3D目标检测结果

表2：ScanNetV2 val数据集上的3D目标检测结果

结果如表1和表2所示。在SUN RGB-D和ScanNet两个数据集中，VoteNet的性能都优于所有先前的方法，分别增加了3.7和6.5 mAP。

表1表明，当类别是训练样本最多的“椅子”时，我们的方法比以前的最优方法提高11 AP。

表2表明，仅使用几何输入时，我们的方法显著优于基于3D CNN的3D-SIS方法，超过了20 AP。

分析实验：投票好还是不投票好呢？

投票好还是不投票好呢？

我们采用了一个简单的基线网络，称之为BoxNet，它直接从采样的场景点提出检测框，而不需要投票。

BoxNet具有与VoteNet相同的主干，但它不采用投票机制，而是直接从种子点生成框。

表3显示，在SUN RGB-D和ScanNet上，相比BoxNet，投票机制的网络性能分别提高了7 mAP和～5 mAP。

表3：VoteNet和no-vote基线的比较

那么，投票在哪些方面有帮助呢？我们认为，由于在稀疏的3D点云中，现有的场景点往往远离目标中心点，直接提出的方案可能置信度较低或不准确。相反，投票让这些较低的置信点更接近，并允许通过聚合来强化它们的假设。

在图3中，我们在一个典型的ScanNetV2场景中演示了这种现象。从图中可以看出，与BoxNet(图左)相比，VoteNet(图右)提供了更广泛的“好”种子点的覆盖范围，显示了投票带来的稳健性。

图3：投票有助于增加检测上下文，从而增加了准确检测的可能性。

图4：当目标点远离目标中心的情况下，投票更有帮助

定性结果和讨论

图6和图7分别展示了ScanNet和SUN RGB-D场景中VoteNet检测结果的几个代表性例子。

可以看出，场景是非常多样化的，并提出了多种挑战，包括杂乱，偏见，扫描的伪像等。尽管有这些挑战，我们的网络仍显示出相当强大的结果。

例如，图6展示了如何在顶部场景中正确地检测到绝大多数椅子。我们的方法能够很好地区分左下角场景中连起来的沙发椅和沙发；并预测了右下角那张不完整的、杂乱无章的桌子的完整边界框。

结论

在这项工作中，我们介绍了VoteNet：一个简单但强大的3D对象检测模型，受到霍夫投票的启发。该网络学习直接从点云向目标质心投票，并学会通过它们的特性和局部几何信息来聚合投票，以生成高质量的object proposals。该模型仅使用3D点云，与之前使用深度和彩色图像的方法相比，有了显著的改进。在未来的工作中，我们将探索如何将RGB图像纳入这个检测框架，并在下游应用(如3D实例分割)汇总利用我们的检测器。我们相信霍夫投票和深度学习的协同作用可以推广到更多的应用领域，如6D姿态估计、基于模板的检测等，并期待在这方面看到更多的研究。