Kinematic 3D Object Detection in Monocular Video
这篇paper是基于M3D-RPN的单目时序融合。
整体推理结构
Modified M3D-RPN
修改的版本主要是两个,一个是角度的预测,一个是自平衡损失函数。
角度的预测被分为两个分类以及一个回归
自平衡损失有两个作用,一方面是让网络决定不确定性,用于卡尔曼滤波,另一方面减少对过于困难的instance的过拟合。
其中为过去个最近的的均值。
在推理的时候,最终的不确定性就是
Ego-Motion
作者使用raw data里面的devkit在training set上生成了odometry ground truth, 然后用网络Densely predict 6DOF的ego motion.最后相当于求全局的均值作为预测。
因而也就可以用在test时将其他车辆的运动限制在自己的orientation上。
3D Kalman Filter
状态空间的设置为 3D中心点,3D大小,方向以及速度
线性系统矩阵
预测时注意需要处理ego-motion,状态方程是在世界坐标系上的,而网络的预测是在相机的坐标系下的。
Association
将卡尔曼滤波的输出与新一帧的预测进行组合,这边选择的方案是贪心的最低距离+2D IoU匹配。
观测更新