论文：2006.11275.pdf (arxiv.org)

论文概述

centerpoint是通过关键点检测来查询物体的中间位置和其特征，用两阶段的目标检测，第一阶段使用经典基于雷达激光的骨干网络如：VoxelNet、PointPillars来对输入点云进行处理，然后将表示转换为鸟瞰图，并使用标准的基于图像的关键点检测器来查找对象中心。这样对于每个检测中心可以通过中心位置的点特征来回归物体诸如三维大小、速度等特征。在第二阶段是轻量级的来细化对象位置。第二阶段提取估计对象三维box的每个面的三维中心点特征（具体来说只有四个向外的面）。该算法可以恢复由于步长和受限制的视野域带来的局部几何信息的丢失，以较小的成本带来了较好的性能提升。

对于每一个点，使用双线性插值从地图视角的主干网输出中提取一个特征。接着，将提取的点特征连接起来，并将他们通过一个MLP传递。第二阶段在第一阶段的预测结果上预测一个与类无关的信心分数和对于box进一步细化。

可信得分：
$$
I=\min(1,\max{(0,2\times IoU_t-0.5}))
$$
IoUt是第t个proposal box与ground-truth间的IoU

二元交叉熵损失：
$$
L_{socre}=-I_t\log(\hat{I_t})-(1-I_t)\log(1-\hat{I_t})
$$
It即为可信得分

对于框回归，模型预测在第一阶段建议之上的细化，用L1损失训练模型。两阶段CenterPoint简化并加速了之前计算复杂度较高的的基于PointNet特征提取器和RoIAlign操作的两阶段3D检测器。

Center heatmap head

Center heatmap head的目标就是在任何被探测的物体中心位置产生一个热力图峰值，Center heatmap head最终会产生一个k通道的热力图，一个通道代表了K类物体中的一种。在训练过程中，它将标注的box的三维中心投影到地图视图中，以生成二维高斯目标。使用focal loss。地图视角有图像视角不具备的优势，例如在地图视角下，汽车所占的比例很小，而在image视角下所占的比例可能会很大。此外，透视投影中对深度的压缩使得物体间的中心距离比image视角下更加接近。作者还通过放大每个ground truth的中心位置的高斯峰值来增强目标热力图的正监督，来抵消CenterNet带来的监督信号稀疏问题（使得大多数位置被认为是背景）。模型可以从附近的像素中得到更密集的监督。

Regression heads

对象的中心有如下几个特征：子体素o、高度h、三维大小s以及一个偏向旋转角度。子体素位置减少了骨干网的体素化和步长带来的误差。高度h帮助在三维中定位对象，并添加被地图视角删除的高度信息。方向预测使用sin、cos作为一个连续的回归目标。结合框的大小，这些Regression heads可以提供完整的物体状态信息。每个输出使用他自己的head，作者使用L1损失训练。在推理时，通过在每个对象的峰值位置对索引密集回归头输出来提取所有属性。

Velocity head and tracking

为了通过时间来跟踪物体，作者使用二维速度进行估计，并作为一个额外的回归输出。同时将前一帧中的点转换并归并到当前参考帧中，并通过时间差(速度)来预测当前和过去参考帧中物体位置的差异，来构建时间点云序列。作者对于速度回归也使用L1损失进行训练。

在推理时，使用贪心策略通过偏移量将当前检测与过去检测关联起来。即通过应用负速度估计将当前帧中目标中心投影回前一帧，然后通过最近距离匹配将其与跟踪目标进行匹配。

论文概述

Center heatmap head

Regression heads

Velocity head and tracking

实验结果