pdf code

TensorMask: A Foundation for Dense Object Segmentation

这篇文章提出了one-stage instance segmentation的算法。传统来说,state of the art 的instance segmentation的做法基本上是先进行object detection得到2D框,然后在框内进行Semantic Segmentation。这样的two-stage甚至是Multi-stage的做法(object detection可能就two-stage).还有一种做法是先生成label pixel然后进行聚类。

本文核心思路就是将整个问题转换为一个四维张量的回归or分类问题。对每一个坐标点对应一个矩阵,设为单位转换比例,则矩阵中的元素指代原图是mask的概率,或其他参数。这样整个网络的训练目标就和一个SSD或者说Yolo差不多了,这同时又和DeepMask不同,显式地表达坐标,并为此适配更多的运算方式.

主要表达方式的定义

Natural Representation

表达为,对于一个4D的张量,它在的值代表在一个中心在的大小为窗口的点的mask值。

Aligned Representation

对一个4D的张量,它在的值代表在一个中心在的大小为窗口的点的mask值。

关键的理解是在坐标上的子矩阵,上的所有值都是在描述这个坐标的,所以称为为

两者的定义可以由这张图显示

image

两者的转换:

网络采用FPN输出多个不同尺度的feature maps,形状

输出Head

本文比较了5种输出Head. 4种是baseline,

image image

区别在于不同Scale上的图,第五个head会输出相同精确度的网格

其中的细节运算如图

image

这些细节运算本质上都是坐标变换以及采样

训练细节

对FPN的微调

image

Label分配

  1. Fully Contain
  2. center of m is close to center of windows
  3. unique