pdf code

Kinematic 3D Object Detection in Monocular Video

这篇paper是基于M3D-RPN的单目时序融合。

整体推理结构

image

Modified M3D-RPN

修改的版本主要是两个,一个是角度的预测,一个是自平衡损失函数。

角度的预测被分为两个分类以及一个回归

image

自平衡损失有两个作用,一方面是让网络决定不确定性,用于卡尔曼滤波,另一方面减少对过于困难的instance的过拟合。

其中为过去个最近的的均值。

在推理的时候,最终的不确定性就是

Ego-Motion

作者使用raw data里面的devkit在training set上生成了odometry ground truth, 然后用网络Densely predict 6DOF的ego motion.最后相当于求全局的均值作为预测。

因而也就可以用在test时将其他车辆的运动限制在自己的orientation上。

3D Kalman Filter

状态空间的设置为 3D中心点,3D大小,方向以及速度

线性系统矩阵

预测时注意需要处理ego-motion,状态方程是在世界坐标系上的,而网络的预测是在相机的坐标系下的。

Association

将卡尔曼滤波的输出与新一帧的预测进行组合,这边选择的方案是贪心的最低距离+2D IoU匹配。

观测更新