F-PointNet

论文:CVPR 2018 Open Access Repository (thecvf.com)

论文概述

image-20220105165859553

每个对象都由一个类(k个预定义类)和一个模态三维box表示。即使对象的一部分被遮挡或是截断,模态框也会得到完整的对象。

关键流程

  1. 利用一个二维CNN对象检测器提取二维区域并对内容进行分类
  2. 将二维区域提升到三维,并形成截锥方案
  3. 通过对截锥中每个点二值分类,对对象实例进行分割(截锥点云:n×c、n个点、c个通道)
  4. 基于分割后的点云(m×c),使用T-Net平移对齐点,使得质心接近模态盒中心
  5. 使用框估计网络估计得出模态三维box

网络结构

截锥建议

image-20220105165859553

由于现有的实时深度探测器得到的分辨率要低于RGB图像,因此先使用RGB图像通过二维目标检测框出目标物体的box,再通过投影矩阵,将二维box提升为三维搜索空间的截锥。接着收集截锥内部的所有点云,形成锥形体点云。还需要通过将圆台旋转到中心视图来对圆台进行归一化,使得圆台的中轴与图像平面正交(上图b)。这种归一化有利于提高算法发旋转不变性。

二维的目标检测网络使用在ImageNet分类数据集和COCO对象检测数据集上预先训练的模型权重,并且在KITTI二维对象检测数据集上进一步调整模型权重,以对二维box进行分类和预测。

三维实例分割

获得二维box和对应的三维截锥后,有几种可以获取对象三维坐标的方法

  1. 直接通过深度图使用二维CNN网络,进行三维位置的回归。容易与遮挡物体或是背景噪声混淆
  2. 在三维点云中进行分割处理,使用基于PointNet的网络处理截锥内的点

本篇文献采用的是第二种方法,从截锥中获取点云并预测每个点的概率分数,该分数表示该点属于某个对象的可能性有多大。而一个点只可能属于一个特定的对象,此时其他点属于无关点。同时,该网路还学习遮挡与噪声对目标检测的影响。

在多类检测任务中,还利用二维检测器的信息提供更好的实例分割。例如,二维检测器检测出对象是行人后,网络会特别的针对类似人的特征进行检测。实际中,是通过将语义类别编码为一个one-hot的k维类向量(代表希望检测的k个对象),并将这个向量连接到中间点云特征中。

三维实例分割出来后,提取出来被分类为感兴趣的对象的点。对这些点再进一步归一化(上图c),以提高坐标的平移不变性。需要注意的是,此处没有进行点云的缩放,因为对象的大小对于框的估计也有重要的作用,

模态三维盒估计

尽管使用了特征对齐,该网路仍存在坐标系的原点仍然离模态盒中心很远。在使用一个轻量化的PointNet(T-Net)来重新估计完整对象的真实中心,然后转换坐标,使预测中心成为原点。这里的T-Net可以看作为新的一种空间transformer网络,并且明确的监督平移网络来预测mask坐标原点到真实物体中心的中心残差。该网路结构与PointNet和PointNet++相似,不过输出的是三维box的参数。

估计box中心时使用残差方法,将box估计网络预测的中心和T-Net以及遮挡点形心得到的预测中心相结合获得绝对中心
$$
C_{pred}=C_{mask}+\Delta C_{T-Net}+\Delta C_{box-net}
$$
对于box的尺寸和朝向,使用Faster r-cnn的预测朝向方法来进行预测。即预定义了NS个模板和NH个等分割角度的box。网络将这些分类到预定义的类别中,并预测每个类别的参差数

多任务训练损失

image-20220105165859553

角损对于网络结果的影响还是很大的,本质上,角损时预测框和ground truth box八个角的距离之和。由于角点位置由中心、大小和方向共同决定,因此角点损失能够对这些参数的多任务训练进行正则化。
$$

L_{corner}=\sum^{NS}_{i=1}\sum^{NH}_{j=1}\delta_{ij}\min{\{\sum^8_{k=1}\parallel p_k^{ij}-p^{*}_k \parallel,\sum^8_{k=1}\parallel p_k^{ij}-p^{**}_k \parallel\} }

$$
构造NS×NH个包含所有尺寸和朝向的anchors,取值时使用原始和翻转情况最小的值,避免由于翻转航向造成较大损失。δ是ground truth的大小/朝向类,是一个二维掩码用来选择距离项。

实验结果

image-20220105165859553

该网络的优势:

  1. 对于合理距离内的非遮挡物体的情况,可以得出非常精确的三维box
  2. 并且对于部分获取到的点数很少的物体(平行停放的汽车)也可以正确的预测三维box
  3. 在二维box相互重叠的情况下,转换到三维空间后处理起来就容易了许多。

同时,实验也暴露出该网路存在的一些问题:

  1. 由于稀疏点云,造成不准确的姿态和大小估计。这个可以通过对图像特征的进一步提取解决
  2. 如果截锥中有同一类别的多个实例(两个人站在一起),因为网络假设的是一个截锥只有一个对象,所以出现多个对象的时候,可能会产生混淆,从而输出混合分割结果。可以通过在每个截锥中设置多个三维box缓解
  3. 二维检测器会因为湖南的灯光或强遮挡错过目标,如果二位检测没有检测到物体,转换到三维空间时自然会忽略该物体。因此可以借助与BEV图像缓解。

做出的贡献

  1. 提出一种基于RGB-D数据的三维目标检测算法
  2. 提供广泛的定量评估来验证该算法的设计选择,以及丰富的定性结果来理解该方法的优势和局限性
  3. 展示了如何在该框架下训练3D对象检测器,并在标准的3D对象检测基准上实现最先进的性能。

[^预测朝向方法]: A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka. 3d bounding box estimation using deep learning and geometry.、Faster r-cnn: Towards real-time object detection with region proposal networks.

谢谢你请我吃糖果
0%