pdf code

MonoLayout: Amodal scene layout from a single image

这篇paper做的是一个和Tesla最新公布的BEV分析方案有一定相关性的任务,即从单目图片到BEV全景分割的映射。

image

  • 数据来自于argoverse的路网,以及KITTI的语义分割加点云投影。
  • 同时要由supervised training, 也需要adversarial training来提升视觉效果。

image

网络上使用一个encoder处理图片数据,然后通过reshape,输出动态与静态两个mask, 训练上一方面使用监督,另一方面使用patchGAN对抗训练,

技术细节:

  • 分成两个单独的decoder对性能影响很大
  • 直接使用UNet效果并不好,还是需要划归为单一矢量重组后再输出。