Summaries for several ICML 2021 papers

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

pdf

本文是第一篇使用Transformer,不使用CNN feature 实现的VLP模型

image

Relative Positional Encoding for Transformers with Linear Complexity

pdf code

这篇paper提出了 Stochastic Positional Encoding (SPE),重点的思路在于将准确的positional Attention理解为一个covariance(因为它设计两个feature以及positional encoding的点乘)因而可以用采样去学习。

image

Accelerate CNNs from Three Dimensions: A Comprehensive Pruning Framework

pdf

本文有一个很好的CSDN blog

这篇paper提出了一个很全面的剪枝框架,从三个维度对CNN进行加速。有一点像是Efficient Net对深度,宽度,分辨率一组系数为基准然后去放大网络,这篇paper则是确定一组参数去prune网路.

image image

本文主要的观点:

  • 以往的方法,要么是对layer进行剪枝,要么是对filter进行剪枝,甚至是缩小resolution.
  • 如果同时着眼多个维度,可以有更高的性能效果.
  • 同时的pruning可以理解为一个优化问题,而精度可以被建模成深度宽度以及分辨率的一个多项式.

Differentiable Spatial Planning using Transformers

pdf

image

image

这篇paper提出用transformer进行value iteration来加速planning的value扩散.