pdf code

Hierarchical Imitation and Reinforcement Learning

本文官方主页

image

这篇文章的主要思路是将强化学习层级化。利用专家经验,将任务分解为多个小任务,网络会同时尝试模仿专家在大、小任务上的经验,也会用强化学习增强相关的经验。

Formalization

对于一个任务,本文会将它分为HHI个序列的子任务,以上图的迷宫举例,里面每一个3x3的方格块就可以理解为一个子任务。而在3x3方格块内一格一格地运动则是理解为子任务的执行。

因为任务就变为了两种

  • 高级目标的转移轨迹 σ=(s1,g1,τ1....)
  • 底层任务的转移轨迹 τ=(s1,a1,....)

image

蒙特祖玛复仇的任务分解:

image