pdf code

Is Pseudo-Lidar needed for Monocular 3D Object detection? (DD3D)

这篇paper在单目3D检测上融合了很多细节的想法,达到了很高的性能点数

image

  • 使用受监督的单目深度估计作为预训练,一方面数据量很大,另一方面可以允许跨domain的预训练(检测数据量少而深度估计数据量大,可以在别的数据集上先预训练深度估计,再在目标环境下训练检测)。
  • 使用FCOS anchor-free框架,与2D检测目前的做前沿方案融合。
  • 预测的深度值受camera parameter影响,即深度会被 归一化,考虑了内参的变化后,预测结果不再与某一相机参数挂钩,且训练时可以用更丰富的数据增强。
  • 使用了disentangled loss.
  • 预测输出视觉转换后的四元数,与cityscape等新数据集的要求符合,对相机俯仰角的变化更鲁棒,更容易直接使用。

image

输出头的描述:

  • 四元数, 表示的是allocentric orientation的四元数,也就是需要考虑相机的观测。但是只估计三个自由度
  • 深度估计网络输出, 对应物体的中心距离, 对应单目深度预训练时使用的深度,而网络输出与实际深度之间的关系如下,其中. 是每一个FPN层里面可以学习的参数:
  • 代表
  • 代表和当前类别的bounding boxes的deviation。
  • 表示3D bounding boxes预测的置信度。它可以被转换为一个概率值, 预测时与分类的结果相乘,作为NMS和排序的标准,训练时用网络的average disentangled L1 Loss作为监督。