pdf code

Joint Unsupervised Learning of Optical Flow and Depth by Watching Stereo Videos

正如题目表示,本文的目标是使用连续的双目视频,同时预测光流、深度以及相机运动。大幅度重用前人的研究,特点是注重对运动以及遮挡物体的去除

主体流程图

image 这个pipeline分为好几个stages

首先,用PWC-Flow预测左目相机的两张图之间的光流,用MotionNet预测左目相机两张图之间的运动 , 用PWD-Disp估计双目相机之间的视差,用视差可以转换为深度

第二,结合,我们可以计算出因相机刚体运动而产生的光流,记为,图中未呈现。然后rigid-alignment module将相机运动从精修为,并进一步得到精修的

第三,Consistency check去除运动区域。

第一、网络结构

PWC-Flow按照这篇文章介绍

MotionNet按照这篇文章介绍

PWC-Disp从PWC-Flow更改,在Cost volumn计算的时候强迫它只在水平方向上搜索,输出形状自然变成了

第二、Rigid Alighment Module

这个模块目标是第一步精修

首先通过将当前图像转换为相机坐标系,3D空间中的点,然后使用转换,得到对应点在第二时刻相机坐标系中的点则表示通过光流回到第一时刻的坐标,

image image

通过求解以上两个步骤,可以得到精修的T

第三、Consistent Check

精修的rigid光流与网络光流的差中,值过大或者被遮挡的部分会被过滤掉,使用thresholding给出一个mask,只有mask中认为是静止物体的才会进行loss计算。