MutualNet: Adaptive ConvNet via Mutual Learning from Network Width and Resolution
这篇paper基于EfficientNet的思路,在此之上继续发散。EfficientNet提出input scale与网络的大小要一同Scale up.
Methods
Sandwich Rule
中间两个网络的输入需要是在 0.25×,1.0×之间选取输入大小。
Inplace Distillation
中间的网络使用的权重都是一致的,在训练过程中最大层作为Teacher network,中间层作为Student network,使用KL Divergence作训练。
Post-statistics of BN
在训练并确定了选择的输入尺度之后,需要重新为subnetwork收集BN数据。
Mutual Learning of different resolution
梯度阐述:
∂L∂W=∂lW0:0.4,IR=128∂W0:0.4+∂lW0:0.8,IR=192∂W0:0.8=∂lW0:0.4,IR=128∂W0:0.4+(∂lW0:0.8,IR=192∂W0:0.4⊕∂lW0:0.8,IR=192∂W0.4:0.8)=∂lW0:0.4,IR=128+∂lW0:0.8,IR=192⊕∂lW0:0.8,IR=192∂W0:0.4∂W0.4:0.8