pdf

BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

这篇paper从YOLOACT出发,进行了多个提升细节。

总体pipeline

image

YOLOACT中,所谓"顶层"detection结果是一系列2D detection的结果,由于需要输出个anchors, 因而输出channel里面有个channels负责给个anchors分别预测个参数,这些参数用来给个attention mask作线性组合。因而每一个mask只能有一个常数。

本文采用了FCOS的 anchor-free detection方案,在FCOS中,每一个tower只需要输出6个channel来完成2D detection,而有了更多的channel用了预测新的信息,作者这里设置个参数,用来作blending,这里K指的就是mask数量,M指的是参数分辨率。

Bottom Module, 选择DeepLabV3+的decoder.输出个mask.

Blender Module

image

作者将Bottom Module的输出,根据顶层detection结果,用RoiPooling取得的特征图,将顶层输出的个参数interpolate 到

最后用点乘与累加,如上图一样叠加起来