Track to Detect and Segment: An Online Multi-Object Tracker
这篇paper以CenterTrack为基准. CenterTrack会利用上一帧的预测热图辅助本帧的预测,同时还会输出一个Offset来辅助data association.
本文有两个突破点,第一个是利用类似 RAFT的结构端到端学习两帧之间的匹配。然后利用可变形卷积将前一帧的特征融入到本帧中进行预测。
Model Architecture
特征提取网络采用的是CenterNet, 然后使用几个卷积层以及下采样层输出. 输出的特征图大小为输入图片的.
Cost Volume 的生成与RAFT类似,将两帧图各个特征相互内积,得到Cost Volume.
Offset的输出方法: 先对两个方向分别做Maxpooling/softmax,得到 以及 . 然后加权平均得到两个方向的offset. 计算方法和光流的计算很相似。
为了监督这个offset, 这里采用tracking label中心的offset来训练这个网络.