MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution
这篇paper基于EfficientNet的思路,在此之上继续发散。EfficientNet提出input scale与网络的大小要一同Scale up.
Methods
Sandwich Rule
中间两个网络的输入需要是在 之间选取输入大小。
Inplace Distillation
中间的网络使用的权重都是一致的,在训练过程中最大层作为Teacher network,中间层作为Student network,使用KL Divergence作训练。
Post-statistics of BN
在训练并确定了选择的输入尺度之后,需要重新为subnetwork收集BN数据。
Mutual Learning of different resolution
梯度阐述: