pdf code

AUGMIX: A SIMPLE DATA PROCESSING METHOD TO IMPROVE ROBUSTNESS AND UNCERTAINTY

这篇谷歌的文章提供了一个对于分类model容易使用的自动数据增强范式。与使用强化学习等其他方法不同,谷歌提出的算法只包含随机采样加上一个附加的损失函数项。开源的代码为简单的numpy与pytorch,较为易懂。

伪代码

image

作者提出的数据加强的采样结果不是多个数据加强的简单层叠(深度上的链接),作者认为这种做法很容易使得得到的数据偏离真实数据集太远,所以提出的是一个综合了广度和深度复合组合方式,一个例子如图

image

损失函数上需要加上Jensen-Shannon divergence.

Jensen-Shannon divergence

Jensen-Shannon divergence本质上是KL divergence的一个扩展.

本文的三元的JS divergence定义为

注意Pytorch的KL-divergence在实现上稍稍有坑。本文代码有完整的实现。