About Surround Monodepth

本页包含关于环视摄像头的单目深度估计。这个任务与传统的monodepth2的相同与区别:

对于一组环视摄像头，每一个摄像头的网络推理都是独立进行的，因此推理方式与monodepth2一致。
与monodepth2不同，尽管推理结构只有单个摄像头，网络的输出是带有尺度的深度，反应实际的环境尺度。monodepth2在这个设定下主要关注的是相对深度，而不需要实际环境深度。
不同摄像头之间有小部分的可视空间重叠。可以利用重叠部分以及相机之间的外参，获取实际的尺度。
采用的数据，主要是nuscenes，以及toyota的DDAD数据集

Full Surround Monodepth from Multiple Cameras

提出context picture的概念，允许context picture来自于不同帧的不同摄像机位置，只要有重叠空间即可。
预测pose的时候，都预测前向摄像头的pose(经常接近于identity transform，容易预测)，再根据相机外参把相对位移转到当前预测的摄像头上。可以增强pose预测的准确性。
同一帧图片不同摄像机预测的位移，在转到前向坐标系后，应该都是相似的值，所以本文提出pose consistency loss约束同一帧pose的相似性。它与第一点结合可以提升同一帧不同摄像机深度的协调性。
加入 non-overlapping area约束重建深度。用torch grid_sample重建图片的时候，如果原来的深度点云在新相机中的投影是在图片外的时候，该函数会取边界点进行插值，在不同摄像机相互监督，或者不同图片间重叠量很少的时候这个mask非常重要。
加入 self-occlusion mask, 在一些数据集上，有一部分的车子是会在相机中有投影，在运行中一直跟着车子移动。这篇paper手动地给每一个数据集每一个车子的每一个摄像头画一个mask, 把车子的投影去掉不计算损失。(Nuscenes的后摄像头就有车身的一部分， DDAD的摄像头也可能有)