BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation
这篇paper从YOLOACT出发,进行了多个提升细节。
总体pipeline
在YOLOACT中,所谓"顶层"detection结果是一系列2D detection的结果,由于需要输出个anchors, 因而输出channel里面有个channels负责给个anchors分别预测个参数,这些参数用来给个attention mask作线性组合。因而每一个mask只能有一个常数。
本文采用了FCOS的 anchor-free detection方案,在FCOS中,每一个tower只需要输出6个channel来完成2D detection,而有了更多的channel用了预测新的信息,作者这里设置个参数,用来作blending,这里K指的就是mask数量,M指的是参数分辨率。
Bottom Module, 选择DeepLabV3+的decoder.输出个mask.
Blender Module
作者将Bottom Module的输出,根据顶层detection结果,用RoiPooling取得个的特征图,将顶层输出的个参数interpolate 到,
最后用点乘与累加,如上图一样叠加起来