pdf code

Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks

这篇paper做的是基于视频的 Multi-view Stereo(MVS) 这样一个三维重建问题。重点要解决的是视频中不同帧预测出来的深度的不一致问题。

image

如果所示连续几帧的预测中,对于同一个物体的估计可能会发生很强的抖动,这在基于视频的重建来说并不好.

网络基本结构

image

基础架构来说,这个网络的hybrid Cost Volume Generation与一般的MVS算法还算相似。Cost Volume采用的是concat的做法。然后在最后的Fuse 部分,把cost volume和单通道在深度维度上concat在一起。

EST Transformer

本文进一步将不同时间frame的 cost volume进行融合,提升他们的consistency.

image

本文提出的方法类似于一个non-local 3D