pdf code

Actor-Critic Instance Segmentation

这篇论文使用actor critic 强化学习,便于预测一系列的segmentation result

整体结构

image

强化学习定义

状态空间 其中为输入图片, 为第时刻的综合mask

行动 是decoder的输入,是一个较为低维的连续矢量

状态转移,相当于将新decode的mask加和在原来的累加mask上

reward,先定义意思是寻找最优的predicted instance-ground truth搭配,得到的最大奖励,然后reward就是

使用重点: 1. decoder需要提前train好,最好不要改变,需要的是一个conditional variational encoder(cVAE) 2. 需要允许critics warm-up

AC training

image