pdf code

Attention Augmented Convolutional Networks

这篇文章基于transformer,将attention直接附加在卷积层中,理论上来说可以用于替代卷积层.

图片上的self-attention

设输入张量形状为,这里忽略Batch.首先摊平为一维变为矢量,然后直接使用transformer中的自注意力层

其中分别是输出维度为的全连接层的权重矩阵。

输出再Concat为MHA

最后会被reshape成为的形状.

二维positional embedding

transformer,我们需要一个传递相对位置信息的方式,我们要求这个embedding能够使网络对位置敏感,但是不能让网络对平移敏感,这里来源来自于music transformer.

像素对像素的attention logits为 其中是像素对应的query vector,是像素的key vector,

上文的self-Attention计算可以转化为 也就是softmax分子加了两项,其中

论文说这个的一种做法是直接存成一个矩阵,但是这样不太好,所以采取了Music Transform的算法,更省内存,具体看代码(原文就是这样),这些参数可学习。

Attention Augmented conv

image