PointNet & PointNet++ 论文解析+算法理解+复现建议（3D点云分类+分割）

论文介绍地址（Paper，Code，Presentation video and Slides）

PointNet：https://web.stanford.edu/~rqi/pointnet/
PointNet++：https://web.stanford.edu/~rqi/pointnet2/

一、PointNet & PointNet++：问题陈述（Problem Statement）

由于点云的无序性，直接操作点云比较困难 - PointNet解决（使用具有置换不变性的对称函数）

在这里插入图片描述

图1. 点云的无序性（图片来源：风中摇曳的小萝卜@Bilibili）

视频链接：[5分钟点云学习] #02 PointNet 开山之作

点云密度不均匀问题 - PointNet++解决

图2. ScanNet的虚拟扫描，模拟点云密度不均匀（图片来源：PointNet++）

二、方法（Method）

PointNet：通用连续集函数逼近器(Universal Continuous Set Function Approximator)

在这里插入图片描述

图3. 不同缓解点云分布不均匀的方法（图片来源：PointNet++）

方案1： 将输入排序为规范顺序
要求该图在维度减小时保持空间邻近性，一般难以实现，且效果不好

方案2： 将输入视为序列来训练 RNN，但通过各种排列来扩充训练数据
将元素数量扩展到数千个输入元素（常规点云数量）难以确保鲁棒性

方案3： 使用对称函数
对于在 $x_i\in\mathbb{R}^d$ 的无序点云数据 ${x_1,x_2,...,x_n\}$ ，可以定义一组函数 $f:\mathcal{X}\to\mathbb{R}$ ，将点云映射到向量上：
$f\left(x_1, x_2, \ldots, x_n\right)=\gamma\left(\operatorname{MAX}_{i=1, \ldots, n}\left\{h\left(x_i\right)\right\}\right),$ 其中 $\gamma$ 和 $h$ 通常是MLP网络。

这些函数称为对称函数，除了可以取最大值，取最小值、平均值的操作也可以看作对称函数。

在这里插入图片描述

图4. 对称函数图解（图片来源：风中摇曳的小萝卜@Bilibili）

视频链接： [5分钟点云学习] #03 PointNet++ 竟然是图结构？！

分层点集特征学习(Hierarchical Point Set Feature Learning) - PointNet++

构建点的分层分组，并沿着层次结构逐步抽象出越来越大的局部区域网络结构。

在这里插入图片描述

图5. 分层点集特征学习（图片来源：PointNet++）

集合抽象层(set abstraction layer)

采样层(sampling)：从输入点中选择一组局部区域质心点
分组层(grouping)：通过查找质心周围的“相邻”点来构造 局部区域集(质心+“相邻”点)
PointNet层：使用mini-PointNet将局部区域模式编码为特征向量

数据维数的变化（不考虑BatchSize）:

N × (d + C) -> 集合抽象层 -> N’ × (d +C’)

N：采样点的个数, 4096
d：坐标信息，xyz(xy去中心化，绕z轴随机旋转)，故为 3
C：特征数量（xyz(xy去中心化，绕z轴随机旋转) + RGB（=/255, 0-1） + xyz(=/max, 0-1), 3+3+3 = 9）¹
N’：子采样点的个数，由sample_and_group函数参数决定，1024
C’：总结局部上下文的新特征数，由MLP的输出通道数决定，64

采样层(sampling layer)

给定N = 4096个点 ${x_{1},x_{2},...,x_{n}\}$ ，使用迭代最远点采样（farthest point sampling, FPS）选出N’ = 1024个采样点(质心) ${x_{i_1},x_{i_2},...,x_{i_m}\}$ ，使得 $x_{i_j}$ 是和其他点 ${x_{i_1},x_{i_2},...,x_{i_{j-1}}\}$ 距离最远的点。

在这里插入图片描述

图6. FPS图解（图片来源：风中摇曳的小萝卜@Bilibili）

视频链接：[5分钟点云学习] #01 最远点采样 FPS

分组层(grouping layer)

输入：

点集：N × (d +C) 和质心集坐标：N’ × d

输出：

点集组：N’ × K × (d + C) ，其中“K”为质心点邻域中的点数

有两种分组策略：

kNN：取每个质心点最近的K个点
球查询(ball query)：在给定半径范围内取K个点（按序号从小到大排前K个），其局部邻域保证了固定的区域尺度，从而使局部区域特征在空间上更具泛化性

在这里插入图片描述

图7. kNN与球查询的对比（图片来源：PointNet++）

论文中主要使用了基于半径的球查询。在这里，作者还实验了基于kNN的邻域搜索，并使用不同的搜索半径和k。在这个实验中，所有的训练和测试都是在具有均匀采样密度的ModelNet40分类任务数据集上进行的。使用1024个点。

如表5所示，基于半径的球查询略好于基于kNN的方法。然而，我们推测，在非常不均匀的点集中，基于kNN的查询将导致较差的泛化能力。我们还观察到，稍大的半径对性能有帮助，可能是因为它捕捉到了更丰富的局部模式。

PointNet层（PointNet layer）

输入：

采样分组后的点集组：N’ × K × (d + C)

输出：

经过PointNet层提取特征后的点集组：N’ × (d + C’)

先将局部区域中的点的坐标转换为相对于质心点的局部坐标系（即采样分组后的点集组减去质心坐标）

grouped_xyz_norm = grouped_xyz - new_xyz.view(B, S, 1, C)

经过多层MLP

for i, conv in enumerate(self.mlp_convs):
    bn = self.mlp_bns[i]
    new_points = F.relu(bn(conv(new_points)))

对特征进行最大池化

new_points = torch.max(new_points, 2)[0]

用于集合分割的点特征传播（Point Feature Propagation for Set Segmentation）

在这里插入图片描述

图8. PointNet++网络结构（图片来源：PointNet++）

采样出的点小于原始点的数量，如何恢复所有点的特征？

一种简单的方法是采样所有点，但会造成很高的计算成本。

文中提出使用点特征传播（Point Feature Propagation）的方式，基于距离的插值和跨级跳跃链接的分层传播策略，如要将点特征从 $N_{l}\times(d+C)$ 点传播到 $N_{l-1}$ 点，其中 $N_{l-1}$ 和 $N_l$ （其中 $N_{l}\leq N_{l-1},$ ）通过在 $N_{l-1}$ 点的坐标处插值 $N_l$ 点的特征值 $f$ 来实现特征传播：

在这里插入图片描述

其中， $f$ 为特征值， $p = 2$ ， $k = 3$ 。

如此基于距离的倒数对特征进行加权拟合，恢复出未被采样到点的特征。层层恢复回去，最终得到每个点的特征以及语义信息。

连接的特征通过单位点网(unit pointnet)，类似于 CNN 中的1x1卷积。应用一些共享的全连接层和 ReLU 层来更新每个点的特征向量。重复该过程，直到将特征传播到原始点集。

多尺度分组和多分辨率分组(MSG & MRG)

点集在不同区域的密度不均匀是很常见的。这种不均匀性给点集特征学习带来了重大挑战。在密集数据中学习的特征可能无法推广到稀疏采样区域。因此，针对稀疏点云训练的模型可能无法识别细粒度的局部结构。
为解决这一问题，文章提出了密度自适应 PointNet 层。

在这里插入图片描述

图9. 多尺度分组和多分辨率分组（图片来源：PointNet++）

多尺度分组（Multi-scale grouping, MSG)
- 在每个质心点的大规模邻域中运行本地 PointNet，时间成本高
多分辨率分组（Multi-resolution grouping, MRG)
- 在计算上更加高效，因为避免了在最低级别的大规模邻域中进行特征提取

网络结构（Architecture）

PointNet

在这里插入图片描述

图10. PointNet网络结构（图片来源：PointNet）

PointNet++

在这里插入图片描述

图11. PointNet++网络结构（图片来源：PointNet++）

三、实验（Experiment）

性能比较 - PointNet

在这里插入图片描述

图12. 不同缓解点云分布不均匀的方法（图片来源：PointNet++））

未排序的MLP（n×3 arrays）
排序的MLP（n×3 arrays）
将输入点视为序列的RNN模型（LSTM）
基于注意力的加权和，其中从每个点特征预测标量分数，然后通过计算 softmax 跨点对分数进行归一化。然后根据归一化分数和点特征计算加权和。（O. Vinyals, S. Bengio, and M. Kudlur. Order matters: Sequence to sequence for sets. arXiv preprint arXiv:1511.06391, 2015.）
平均值池化
最大值池化

性能比较 - PointNet++

在这里插入图片描述

图13. PointNet++性能（图片来源：PointNet++）

在这里插入图片描述

图14. 从ScanNet生成的虚拟扫描（图片来源：PointNet++））

ScanNet：原始数据集
ScanNet non-uniform：作者合成的类似于激光雷达直接获取的扫描场景的虚拟扫描，测试模型在具有非均匀采样密度的扫描上执行情况

由于采样密度从均匀点云转移到虚拟扫描场景，SSG性能大大下降。但是，MRG网络对采样密度偏移更具鲁棒性，因为当采样稀疏时，它能够自动切换到描绘更粗粒度的特征。MSG网络仅受到轻微影响，并且在比较中实现了最佳精度。这些证明了的密度自适应层设计的有效性。

鲁棒性测试 - PointNet

在这里插入图片描述

图15. PointNet鲁棒性测试（图片来源：PointNet）

删除点（最远点/随机点）
插异常值
添加高斯噪声

鲁棒性测试 - PointNet++

在这里插入图片描述

图16. PointNet++鲁棒性测试（图片来源：PointNet++）

在测试期间随机丢弃点（见图左4），以验证PointNer++对非均匀和稀疏数据的鲁棒性。

在图4中，右侧，我们看到MSG+DP（训练期间具有随机输入丢失的多尺度分组）和MRG+DP。MSG+DP性能从1024个测试点下降到256个测试点，降幅不到1%。此外，与替代方案相比，它在几乎所有采样密度上都实现了最佳性能。
原始PointNet 在密度变化下相当稳健，因为它关注全局概况而不是精细细节。然而，与PointNet++相比，细节的丢失也使其功能减弱。
SSG（每级单尺度分组的消融PointNet++）不能推广到稀疏采样密度，而SSG+DP通过在训练时间内随机丢点来弥补这一问题。

可视化 - PointNet

在这里插入图片描述

图17. PointNet可视化（图片来源：PointNet）

三种点集形状将给出相同的全局形状特征 $f (S)$ ：

原始形状(Original Shape)
关键点集(Critical Point Sets)：对最大池化特征有贡献的关键点
上采样形状(Upper-bound Shapes)：通过网络 forwarding 边长为 2 的立方体中的所有点，并选择其点函数值 $(h_1(p),h_2(p),\cdots,h_K(p))$ 不大于全局形状描述符的点 $p$

可视化 - PointNet++

在这里插入图片描述

图18. PointNet++可视化（图片来源：PointNet++）

作者可视化了分层网络的第一级内核所学到的东西：在空间中创建了一个体素网格，并聚合局部点集，这些点集在网格单元中激活某些神经元最多。在可视化中可以看到平面、双平面、直线、角等结构。

在这里插入图片描述

图19. PointNet++可视化 - 分类结果（图片来源：PointNet++）

PointNet正确地捕捉了房间的整体布局，但未能发现家具。相比之下，PointNet++在分割房间布局之外的对象方面要好得多。因为PointNet++进行分层特征学习，并捕获了不同尺度的几何特征，这对于理解多个级别的场景和标记各种大小的对象非常重要。

ScanNet实验细节 - PointNet++

为了从ScanNet场景（ScanNet为体素数据集）中生成训练数据，作者从初始场景中采样1.5米乘1.5米乘3米的立方体，然后保留其中≥2%的体素被占用，且≥70%的表面体素具有有效注释的立方体。

作者在飞行中对这样的训练立方体进行采样，并沿右上轴随机旋转它，将扩充的点添加到点集以形成固定的基数（在本文的情况下为8192）。

在测试期间，作者类似地将测试场景拆分为更小的立方体，并首先获得立方体中每个点的标签预测，然后合并来自同一场景的所有立方体中的标签预测。如果一个点从不同的立方体中得到不同的标签，则进行多数投票，得到最终的点标签预测。

法向量预测 - PointNet

在这里插入图片描述

图20. PointNet法向量预测（图片来源：PointNet）

更改分割PointNet的最后一层，预测每个点的法向量。我们使用余弦距离的绝对值作为Loss。

将PointNet法线预测结果（左列）与从网格计算的ground-truth法线（右列）进行了比较。可以观察到一个合理的正常重建。PointNet的预测比ground-truth更平滑、更连续，ground-truth包括某些区域的翻转法线方向。

代码参考

PyTorch版本（非官方-S3DIS）：Pointnet_Pointnet2_pytorch
https://github.com/yanx27/Pointnet_Pointnet2_pytorch
PyTorch版本（非官方-ScanNet）：Pointnet2.ScanNet
https://github.com/daveredrum/Pointnet2.ScanNet
Tensorflow版本（官方-ScanNet）：pointnet2
https://github.com/charlesq34/pointnet2

复现建议：

使用第一个GitHub项目（PyTorch版本+S3DIS）的代码为基础，环境配置较为容易，只需要安装PyTorch和tqdm即可。如果需要使用ScanNet数据集进行测试，可以参考第二个和第三个GitHub项目的数据导入部分进行更改。

四、算法不足（prospect）

注意，本节非PointNet、PointNet++论文中内容

PointNet对大场景的局部结构捕捉能力有限。
PointNet++遇到更大场景时，需要增加采样点数，导致占用内存较大，限制了其在更大规模点云上的表现。
采样慢，FPS需要200多秒才能对100万个点中的10%进行采样。（Hu, Qingyong et al. “RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2019): 11105-11114.）

PointNet++原论文使用仅XYZ的ScanNet，特征数量为3，上述9维的特征数量为PointNet使用S3DIS数据集所用的配置 ↩︎