论文：CVPR 2019 Open Access Repository (thecvf.com)

论文概述

本篇论文使用两阶段的三维目标检测框架，并且直接应用于三维点云，实现了强大和准确的三位检测性能。

第一阶段

第一阶段是生成自底向上的三维包围盒方案，分割前景，同时从分割点生成数量较少的box proposal，节省大量的计算量。具体来说，通过学习逐点特征来分割原始点云，并同时从分割的前景点生成3D提案。

对于训练集中的每个3D点云场景，我们从每个场景中抽取16,384个点作为输入。对于点数小于16,384的场景，我们随机重复这些点数，得到16,384点。对于stage-1子网络，我们遵循[28]的网络结构，其中使用四个具有多尺度分组的集抽象层，将点分组为大小为4096、1024、256、64的组。然后使用四个特征传播层来获取点特征向量，用于分割和生成建议。

鉴于骨干点云网络编码的逐点特征，通过附加一个分割头用于估计前景掩模和一个框回归头用于生成3D提案。对于点分割，ground-truth分割蒙版自然是由3D ground-truth box提供的。对于大型户外场景，前景点的数量一般要比背景点的数量少得多。因此，我们使用焦点损失[19]来处理类不平衡问题
$$
L_{focal}(p_t)=-\alpha_t(1-p_t)^\gamma\log(p_t),\
p_t=\begin{cases} p \qquad for forground point \1-p \qquad otherwise\end{cases}
$$

第二阶段

第二阶段进行规范的三维box框细化，生成proposal后，采用点云池化，将第一阶段学习到的点进行池化。

在LiDAR坐标系中，三维包围框表示为(x, y, z, h, w, l， θ)，其中(x, y, z)为目标中心位置，(h, w, l)为目标大小，θ为从鸟瞰目标方向。为了约束生成的3D框建议，提出了基于bin的回归损失来估计对象的3D边界框。

Fcls为交叉分类损失；Freg为平滑L1损失

同时为了消除冗余提案，通过基于鸟瞰图进行非最大抑制(non - maximum suppression, NMS)，生成少量高质量提案。在训练方面，使用0.85作为IoU阈值，在NMS之后，保留stage-2子网培训建议的top 300的proposals。推理过程中，采用NMS，IoU阈值为0.8，只保留前100个建议对阶段2子网进行细化

对于框提案细化子网络，网络从每个提案的集合区域随机抽取512个点作为细化子网络的输入。使用三个单尺度分组集合抽象层(分组大小分别为128、32、1)生成单个特征向量，用于对象置信度分类和建议位置优化。

点云区域池化

在获得3D包围盒提案后，目标是在之前生成的box proposal的基础上细化box的位置和方向。为了了解每个方案更具体的局部特征，建议根据每个3D方案的位置，从stage-1集合3D点及其对应的点特征。

对于每个三维box，作者都会稍微放大尺寸得到一个新的三维box，从上下文编码额外的信息

对于每个点，通过内外测试确定点是否再扩大的box proposal中。

规范的3D box细化

正则变换

正则变换遵守如下规则：

原点位于方框的中心
局部的X‘和Z’轴近似平行于地平面，X‘指向提案的头部方向，另一个Z‘轴垂直于X’
Y ’轴与激光雷达坐标系保持一致。

改进box proposal的特征学习

细化子网络结合了变换后的局部空间点(特征)以及从阶段1进行进一步的盒和置信度细化得到的全局语义特征。

虽然正则变换能够实现鲁棒的局部空间特征学习，但它不可避免地会丢失每个对象的深度信息。为了补偿丢失的深度信息，将点到传感器的距离特征加入特征点p中。

对于每个提议，其关联点的局部空间特征和额外的特征首先连接并馈送给几个全连接层，将其局部特征编码为相同维的全局特征。然后将局部特征和全局特征串联并馈送到一个pointNet++结构的网络中，得到一个判别特征向量，用于后续的置信度分类和盒体细化。

改进box proposal的损失函数

使用基于bin的回归损失来改进proposal，如果IoU大于0.55，则将ground-truth box 分配给三维box proposal，用于学习box的改进。（三维box proposal及其对应的ground-truth box 都被转换为标准坐标系）
$$

L_{refine}=\frac{1}{\vert\vert B\vert\vert}\sum_{i\in B}F_{cls}(prob_i,label_i)+\frac{1}{\vert\vert B_{pos}\vert\vert}\sum_{i\in B_{pos} }(\hat{L}^{(i)}_{bin}+\hat{L}^{(i)}_{res})

B是阶段1的3D提案集合，Bpos存储回归的正提案，probi是bi的估计置信度，labeli是相应的标签，

对于box偏转方向，则将ground-truth box 与三维box proposal的IoU阈值为0.55。

做出的贡献

提出了一种基于点云的自底向上的三维包围盒提案生成算法，该算法通过将点云分割成前景对象和背景，生成少量高质量的三维提案。从分割中学习到的点表示不仅擅长于提议的生成，而且对后续的框细化也有帮助。
所提出的规范3D包围盒细化利用了从阶段1生成的高召回量盒建议，并学会了在规范坐标中预测基于稳健盒基损耗的盒坐标细化。
提出的三维检测框架PointRCNN在仅使用点云作为输入的情况下，显著优于目前最先进的方法