SkyEye: Self-Supervised Bird’s-Eye-View Semantic Mapping Using Monocular Frontal View Images

这篇paper探索了弱监督的BEV语义分割任务。假设我们只有图片序列以及在图片上的语义分割标注，如何训练一个网络从一个相机输出BEV上的语义分割结果。

论文中贴了官方页面，不过在发本文之前尚未完成建设。

Basic Framework

工作流程:

使用预训练的单目深度估计网络(采用的是在kitti360上双目训练的)
在有gt label的图片上面，把Front view 转到BEV上，经过densification (图形学操作erode) + bounding box fitting (填满object). 生成BEV上的pseudo label.
主网络结构包含 encoder, lifting module (LSS)，形成voxel, 分别投影到不同相机坐标系下，预测对应的 image frame 语义分割形态,添加multi-frame consistency的loss。同时投影到BEV上，在BEV上输出结果，并使用psuedolabel 进行监督。