Actor-Critic Instance Segmentation
这篇论文使用actor critic 强化学习,便于预测一系列的segmentation result
整体结构
强化学习定义
状态空间 其中为输入图片, 为第时刻的综合mask
行动 是decoder的输入,是一个较为低维的连续矢量
状态转移,相当于将新decode的mask加和在原来的累加mask上
reward,先定义意思是寻找最优的predicted instance-ground truth搭配,得到的最大奖励,然后reward就是
使用重点: 1. decoder需要提前train好,最好不要改变,需要的是一个conditional variational encoder(cVAE) 2. 需要允许critics warm-up
AC training