Cognitive Mapping and Planning for Visual Navigation

这篇论文在2017年提出了直接利用视觉进行导航的思路

总体结构:

神经网络结构

输入为Egomotion, Goal, 视觉图像输入, 输出时action，中间使用可微分Mapper和可微分Planner

Mapper

神经网络结构

这里给出的mapper结构如上图，已知上一时刻对环境建图结果以及本体运动，通过可微分的图片平移和旋转，得到对现在地图的估计，与新图片经过encoder、decoder之后的输出进行合并，得到当前世界的估计。

神经网络结构

这里给出的多层级Planner结构如上图，算法如下

在最大的地图最小实际距离分辨率的costmap(来自mapper)上带着goal信息(卷积合成)，进行value-iteration(方法同QMDP中提到的planner的做法)
分割出Value Map中心部分，下采样,与Goal和Costmap卷积合成，再进行value-iteration
重复2，直到分辨率足够小为止，最终全连接输入行动值。

显然这个planner与Mapper都是可导的运算过程，可以端到端学习。缺点在于Value-iteration用于planner这个目前只在2D平面导航中观察过，有待考虑。