论文:CVPR 2018 Open Access Repository (thecvf.com)
论文概述

每个对象都由一个类(k个预定义类)和一个模态三维box表示。即使对象的一部分被遮挡或是截断,模态框也会得到完整的对象。
关键流程
- 利用一个二维CNN对象检测器提取二维区域并对内容进行分类
- 将二维区域提升到三维,并形成截锥方案
- 通过对截锥中每个点二值分类,对对象实例进行分割(截锥点云:n×c、n个点、c个通道)
- 基于分割后的点云(m×c),使用T-Net平移对齐点,使得质心接近模态盒中心
- 使用框估计网络估计得出模态三维box
网络结构
截锥建议

由于现有的实时深度探测器得到的分辨率要低于RGB图像,因此先使用RGB图像通过二维目标检测框出目标物体的box,再通过投影矩阵,将二维box提升为三维搜索空间的截锥。接着收集截锥内部的所有点云,形成锥形体点云。还需要通过将圆台旋转到中心视图来对圆台进行归一化,使得圆台的中轴与图像平面正交(上图b)。这种归一化有利于提高算法发旋转不变性。
二维的目标检测网络使用在ImageNet分类数据集和COCO对象检测数据集上预先训练的模型权重,并且在KITTI二维对象检测数据集上进一步调整模型权重,以对二维box进行分类和预测。
三维实例分割
获得二维box和对应的三维截锥后,有几种可以获取对象三维坐标的方法
- 直接通过深度图使用二维CNN网络,进行三维位置的回归。容易与遮挡物体或是背景噪声混淆
- 在三维点云中进行分割处理,使用基于PointNet的网络处理截锥内的点
本篇文献采用的是第二种方法,从截锥中获取点云并预测每个点的概率分数,该分数表示该点属于某个对象的可能性有多大。而一个点只可能属于一个特定的对象,此时其他点属于无关点。同时,该网路还学习遮挡与噪声对目标检测的影响。
在多类检测任务中,还利用二维检测器的信息提供更好的实例分割。例如,二维检测器检测出对象是行人后,网络会特别的针对类似人的特征进行检测。实际中,是通过将语义类别编码为一个one-hot的k维类向量(代表希望检测的k个对象),并将这个向量连接到中间点云特征中。
三维实例分割出来后,提取出来被分类为感兴趣的对象的点。对这些点再进一步归一化(上图c),以提高坐标的平移不变性。需要注意的是,此处没有进行点云的缩放,因为对象的大小对于框的估计也有重要的作用,
模态三维盒估计
尽管使用了特征对齐,该网路仍存在坐标系的原点仍然离模态盒中心很远。在使用一个轻量化的PointNet(T-Net)来重新估计完整对象的真实中心,然后转换坐标,使预测中心成为原点。这里的T-Net可以看作为新的一种空间transformer网络,并且明确的监督平移网络来预测mask坐标原点到真实物体中心的中心残差。该网路结构与PointNet和PointNet++相似,不过输出的是三维box的参数。
估计box中心时使用残差方法,将box估计网络预测的中心和T-Net以及遮挡点形心得到的预测中心相结合获得绝对中心
$$
C_{pred}=C_{mask}+\Delta C_{T-Net}+\Delta C_{box-net}
$$
对于box的尺寸和朝向,使用Faster r-cnn的预测朝向方法来进行预测。即预定义了NS个模板和NH个等分割角度的box。网络将这些分类到预定义的类别中,并预测每个类别的参差数
多任务训练损失

角损对于网络结果的影响还是很大的,本质上,角损时预测框和ground truth box八个角的距离之和。由于角点位置由中心、大小和方向共同决定,因此角点损失能够对这些参数的多任务训练进行正则化。
$$
$$
构造NS×NH个包含所有尺寸和朝向的anchors,取值时使用原始和翻转情况最小的值,避免由于翻转航向造成较大损失。δ是ground truth的大小/朝向类,是一个二维掩码用来选择距离项。
实验结果

该网络的优势:
- 对于合理距离内的非遮挡物体的情况,可以得出非常精确的三维box
- 并且对于部分获取到的点数很少的物体(平行停放的汽车)也可以正确的预测三维box
- 在二维box相互重叠的情况下,转换到三维空间后处理起来就容易了许多。
同时,实验也暴露出该网路存在的一些问题:
- 由于稀疏点云,造成不准确的姿态和大小估计。这个可以通过对图像特征的进一步提取解决
- 如果截锥中有同一类别的多个实例(两个人站在一起),因为网络假设的是一个截锥只有一个对象,所以出现多个对象的时候,可能会产生混淆,从而输出混合分割结果。可以通过在每个截锥中设置多个三维box缓解
- 二维检测器会因为湖南的灯光或强遮挡错过目标,如果二位检测没有检测到物体,转换到三维空间时自然会忽略该物体。因此可以借助与BEV图像缓解。
做出的贡献
- 提出一种基于RGB-D数据的三维目标检测算法
- 提供广泛的定量评估来验证该算法的设计选择,以及丰富的定性结果来理解该方法的优势和局限性
- 展示了如何在该框架下训练3D对象检测器,并在标准的3D对象检测基准上实现最先进的性能。
[^预测朝向方法]: A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka. 3d bounding box estimation using deep learning and geometry.、Faster r-cnn: Towards real-time object detection with region proposal networks.