Emerging Properties in Self-Supervised Vision Transformers

这篇paper提出了自监督训练ViT, 给出的性能很高，接近于有监督的数据，且其输出的feature map性能很高。

Moco 是一个自监督学习图片分类的框架，其算法如图:

ViT具体参考这篇文章

Method

这篇paper的方法和MoCo有一定的相似性，很受Moco的启发，但是它把他用在transformer上.作者发现其transformer里面的分类token可以直接用于前景的segmentation.