Emerging Properties in Self-Supervised Vision Transformers
这篇paper提出了自监督训练ViT, 给出的性能很高,接近于有监督的数据,且其输出的feature map性能很高。
Related works
Moco
Moco 是一个自监督学习图片分类的框架,其算法如图:
ViT
ViT具体参考这篇文章
Method
这篇paper的方法和MoCo有一定的相似性,很受Moco的启发,但是它把他用在transformer上.作者发现其transformer里面的分类token可以直接用于前景的segmentation.