论文：CVPR 2018 Open Access Repository (thecvf.com)

论文概述

每个对象都由一个类（k个预定义类）和一个模态三维box表示。即使对象的一部分被遮挡或是截断，模态框也会得到完整的对象。

关键流程

利用一个二维CNN对象检测器提取二维区域并对内容进行分类
将二维区域提升到三维，并形成截锥方案
通过对截锥中每个点二值分类，对对象实例进行分割（截锥点云：n×c、n个点、c个通道）
基于分割后的点云（m×c），使用T-Net平移对齐点，使得质心接近模态盒中心
使用框估计网络估计得出模态三维box

网络结构

截锥建议

由于现有的实时深度探测器得到的分辨率要低于RGB图像，因此先使用RGB图像通过二维目标检测框出目标物体的box，再通过投影矩阵，将二维box提升为三维搜索空间的截锥。接着收集截锥内部的所有点云，形成锥形体点云。还需要通过将圆台旋转到中心视图来对圆台进行归一化，使得圆台的中轴与图像平面正交（上图b）。这种归一化有利于提高算法发旋转不变性。

二维的目标检测网络使用在ImageNet分类数据集和COCO对象检测数据集上预先训练的模型权重，并且在KITTI二维对象检测数据集上进一步调整模型权重，以对二维box进行分类和预测。

三维实例分割

获得二维box和对应的三维截锥后，有几种可以获取对象三维坐标的方法

直接通过深度图使用二维CNN网络，进行三维位置的回归。容易与遮挡物体或是背景噪声混淆
在三维点云中进行分割处理，使用基于PointNet的网络处理截锥内的点

本篇文献采用的是第二种方法，从截锥中获取点云并预测每个点的概率分数，该分数表示该点属于某个对象的可能性有多大。而一个点只可能属于一个特定的对象，此时其他点属于无关点。同时，该网路还学习遮挡与噪声对目标检测的影响。

在多类检测任务中，还利用二维检测器的信息提供更好的实例分割。例如，二维检测器检测出对象是行人后，网络会特别的针对类似人的特征进行检测。实际中，是通过将语义类别编码为一个one-hot的k维类向量（代表希望检测的k个对象），并将这个向量连接到中间点云特征中。

三维实例分割出来后，提取出来被分类为感兴趣的对象的点。对这些点再进一步归一化（上图c），以提高坐标的平移不变性。需要注意的是，此处没有进行点云的缩放，因为对象的大小对于框的估计也有重要的作用，

模态三维盒估计

尽管使用了特征对齐，该网路仍存在坐标系的原点仍然离模态盒中心很远。在使用一个轻量化的PointNet（T-Net）来重新估计完整对象的真实中心，然后转换坐标，使预测中心成为原点。这里的T-Net可以看作为新的一种空间transformer网络，并且明确的监督平移网络来预测mask坐标原点到真实物体中心的中心残差。该网路结构与PointNet和PointNet++相似，不过输出的是三维box的参数。

估计box中心时使用残差方法，将box估计网络预测的中心和T-Net以及遮挡点形心得到的预测中心相结合获得绝对中心
$$
C_{pred}=C_{mask}+\Delta C_{T-Net}+\Delta C_{box-net}
$$
对于box的尺寸和朝向，使用Faster r-cnn的预测朝向方法来进行预测。即预定义了NS个模板和NH个等分割角度的box。网络将这些分类到预定义的类别中，并预测每个类别的参差数

多任务训练损失

角损对于网络结果的影响还是很大的，本质上，角损时预测框和ground truth box八个角的距离之和。由于角点位置由中心、大小和方向共同决定，因此角点损失能够对这些参数的多任务训练进行正则化。
$$

L_{corner}=\sum^{NS}_{i=1}\sum^{NH}_{j=1}\delta_{ij}\min{\{\sum^8_{k=1}\parallel p_k^{ij}-p^{*}_k \parallel,\sum^8_{k=1}\parallel p_k^{ij}-p^{**}_k \parallel\} }

$$
构造NS×NH个包含所有尺寸和朝向的anchors,取值时使用原始和翻转情况最小的值，避免由于翻转航向造成较大损失。δ是ground truth的大小/朝向类，是一个二维掩码用来选择距离项。

实验结果

该网络的优势：

对于合理距离内的非遮挡物体的情况，可以得出非常精确的三维box
并且对于部分获取到的点数很少的物体（平行停放的汽车）也可以正确的预测三维box
在二维box相互重叠的情况下，转换到三维空间后处理起来就容易了许多。

同时，实验也暴露出该网路存在的一些问题：

由于稀疏点云，造成不准确的姿态和大小估计。这个可以通过对图像特征的进一步提取解决
如果截锥中有同一类别的多个实例（两个人站在一起），因为网络假设的是一个截锥只有一个对象，所以出现多个对象的时候，可能会产生混淆，从而输出混合分割结果。可以通过在每个截锥中设置多个三维box缓解
二维检测器会因为湖南的灯光或强遮挡错过目标，如果二位检测没有检测到物体，转换到三维空间时自然会忽略该物体。因此可以借助与BEV图像缓解。

做出的贡献

提出一种基于RGB-D数据的三维目标检测算法
提供广泛的定量评估来验证该算法的设计选择，以及丰富的定性结果来理解该方法的优势和局限性
展示了如何在该框架下训练3D对象检测器，并在标准的3D对象检测基准上实现最先进的性能。

[^预测朝向方法]: A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka. 3d bounding box estimation using deep learning and geometry.、Faster r-cnn: Towards real-time object detection with region proposal networks.