Categorical Depth Distribution Network for Monocular 3D Object Detection
这篇paper (caddn) 提出了一个one-stage的单目3D detection模型,速度不快但是点数较为理想。思路上类似于DSGN的端到端坐标转换,是比较有泛用性的算法。
Model Architecture 系统模型
Frustum Feature Network输出的Image Feature 为backbone 下采样比例为4的输出,使用 卷积对通道数进行下采样, 得到.
Depth Distribution Network 采用 ASPP融合多尺度数据,同样输出下采样比例为4的输出,输出的是深度bin分布, 得到.
Sampler 的输入为, 的外积 .
从相机坐标转换到BEV的做法系统如下图:
估计实现方法是采用空间中的 grid_sample 函数,实现文中提及的三线性插值.
BEV Detection
作者使用卷积层将Voxel Feature 坍缩成单层的BEV特征. 之后采用PointPillars的输出Head输出最终结果.
Depth Encoding
网络中实际上嵌入了一个基于bin分类深度预测网络,这个深度预测网络对深度的encoding/discretization是关键。
本文采用的是线性增加离散(linear-increasing discretization LID).其公式为:
训练这个网络的时候使用Focal Loss, 同时对不同点的深度给予不同的权重。如果一个点在2D bounding box内,则其权重, 否则为