End-to-End Object Detection with Transformers

这篇paper给的思路是一个用新工具进行复古的思路。在Yolo与RCNN统一之前，object detection的一个做法是使用RNN序列地输出bounding boxes，当时有一个需要注意的trick就是loss function在计算的时候需要先将Ground truth与预测框计算一个最优匹配，然后对应计算loss. 本文的新颖之处就是使用transformer替代RNN并行decode.