Rethinking ImageNet Pre-training

这篇论文来自何凯明的论文讨论了pretraining对detection task的影响，分析了数个要素

主要结论

pretrained加速收敛
imagenet pretrained不一定提升regularization，除非原来数据集量真的很小
当训练任务对位置信息非常敏感时，比如key-point检测，imagenet pretrained用处不大

其他技术细节

Normalization必不可少，但是由于Detection高清图要求高，显存不够，所以如果需要从头开始train batch normalization会因为batch太小影响效果，所以尝试GroupNorm等。
对于数据量足够大的detection task来说，pretrain可以使结果更快收敛，但是random-initialization足够长epoch后得到的结果一般不会差于pretrain，当然要求有GN
使用初始学习率(较大的学习率)，训练更长的时间是有用的，长时间使用低学习率提高准确率经常会导致overfitting

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search