Rethinking ImageNet Pre-training
这篇论文来自何凯明的论文讨论了pretraining对detection task的影响,分析了数个要素
主要结论
- pretrained加速收敛
- imagenet pretrained不一定提升regularization,除非原来数据集量真的很小
- 当训练任务对位置信息非常敏感时,比如key-point检测,imagenet pretrained用处不大
其他技术细节
- Normalization必不可少,但是由于Detection高清图要求高,显存不够,所以如果需要从头开始train batch normalization会因为batch太小影响效果,所以尝试GroupNorm等。
- 对于数据量足够大的detection task来说,pretrain可以使结果更快收敛,但是random-initialization足够长epoch后得到的结果一般不会差于pretrain,当然要求有GN
- 使用初始学习率(较大的学习率),训练更长的时间是有用的,长时间使用低学习率提高准确率经常会导致overfitting