计算机视觉中的Transformer

深度学习中最一开始的Transformer是2017年推出的，非常强力^[1]。可能当时作者觉得这个东西很强，所以才会赋予”变形金刚”的名字吧。而后来，Transformer也广泛的推广到了计算机视觉(CV)领域，从2020年开始，就有对Transformer在CV中的大量新研究发表。

本文主要会讲最初的Transformer，Vision Transformer(ViT)和Multi-scale Vision Transformer(MViT)。

最初的Transformer

解决并行问题

最初的Transformer是来源于这篇，”Attention is all you need”，用于自然语言处理(NLP)的机器翻译任务的。以前的RNN(包括LSTM^[2], GRU^[3])层计算并不能并行，因为一个序列中的某一个元素的计算是要基于别的元素的。如下图所示。

Fig. 1. RNN layer. Adapted from ^[4]

其中$a^1$到$a^4$都是一个序列中的token，RNN层可以看到一个序列中的全部信息，包括位置信息。但是这里每一个token的计算需要其他token的计算结果，所以无法做到并行化提高效率。

Fig. 2. Convolutional layer. Adapted from ^[4]

如上图所示, 使用卷积层^[5]虽然可以并行计算，但是覆盖面积受到卷积核(kernel)的限制，无法在距离比较远的token中提取特征。

Fig. 3. Stacked convolutional layer. Adapted from ^[4]

如上图所示，很多人会通过将卷积层堆叠起来以达到提取更多特征的目的，但是这个覆盖范围其实依然并不是很宽，而且也需要更多的计算。

我们需要的是一个有长时记忆，并且可以并行处理的结构。所以这篇论文提出了Self-attention机制和Multi-Head Attention Layer。

Fig. 4. Calculation of $K^i$ and $Q^i$ in self-attention layer. Adapted from ^[4]

首先，我们有一个输入序列，从$x^1$到$x^4$。在Embedding之后，会将每一个token转换成1-D vector，$a^1$到$a^4$。使用3个线性层分别对应Q，K，V的权重，则可以把$z^i$转换成Q (Query)，K (Key)，V (Value)的向量。这个计算方式如下所示。
$$
\begin{split}
q^i &= W^qa^i \\
k^i &= W^ka^i \\
v^i &= W^va^i
\end{split}
$$
我们以第一个token作为例子，需要用$q^1$与所有token的$k$相乘，从而求得$\alpha_{1,1}$到$\alpha_{1,4}$。之后，通过一个softmax进行标准化使得它们的和为1，得到$\hat{\alpha}_{1,1}$到$\hat{\alpha}_{1,4}$。

Fig. 5. Calculation of $b^i$ in self-attention layer. Adapted from ^[4]

然后，再对计算出来的$\hat{\alpha}_{1,1}$到$\hat{\alpha}_{1,4}$和$v$相乘求和。以第一个token为例，它的attention层输出是，
$$
b^1 = \sum_i\hat{\alpha}_{1,i}v^i
$$

重复同样的步骤，则可以得到$b_1$到$b_4$。以上的步骤看起来计算相当的复杂，但是其实可以通过几个比较简单的矩阵运算即可完成，所以它是可以很容易通过GPU进行并行计算的。

Fig. 6. Matrix multiplication form in self-attention layer. Adapted from ^[4]

左上角的$O$代表output，$I$代表input。而这个$I$则是将所有的输入$a_i$叠起来变成一个2D矩阵。而以上的全部需要一个一个迭代计算的过程都可以用矩阵乘法的方式实现，总的计算其实很方便。正因为这个容易进行并行计算，所以在运算速度上是快于RNN的。

Transformer结构

Fig. 7. Scaled dot product attention. Adapted from ^[1]

$$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_K}})V$$

如上所示^[1]，这个过程被称为Scaled Dot-Product Attention。你会注意到这个公式里除以一个$\sqrt{d_K}$。根据原文的说明，这个的目的是为了把值重新缩放回 Mean = 0, Variance = 1 的状态。

Fig. 8. Multi-head attention. Adapted from ^[4]

除此之外，他们还提出了一个Multi-Head Attention Layer，相比于普通的attention层，这个多头attention层有多个attention层互相并行。最后把多个并行的attention层拼接，再通过一个全连接层进行映射，把维度保持在和输入相同的状态。

Fig. 9. Transformer structure. Adapted from ^[1]

如上图所示，整个Transformer是一个encoder-decoder结构。如果这个Transformer的任务是把英文翻译成中文，那在encoder的inputs这里输入中文句子，在decoder的输入端输入英文句子，decoder的输出则是概率。从encoder开始，输入的token序列会先送入embedding层转换成向量，然后再和positional encoding相加。因为在attention层中输入token并不会知道其中的位置信息，所以需要加一个positional encoding。因为矩阵相加可以视为拼接的一种特殊情况，所以通过embedding和positional encoding相加，attention层可以同时获取两者的信息，提取的特征更有效率。这个positional encoding可以是自己手动设定的，也可以是通过学习的。在这篇文章下用的是手动设定的。相加之后，会有4条路线，1条是类似于ResNet^[6]的恒等连接，而另外3条则是通过对应的全连接层得到Q,K,V，再输入进attention层。在结束了multi-head attention层的计算之后，接下来是一个Add & Norm层，这个层的过程就是将attention层的输入和输出相加，并且做一个layer normalization(LN)^[7]。

Fig. 10. Layer normalization. Adapted from ^[4]

如上图所示^[4]，和常用的batch normalization(BN)^[8]相比，主要是标准化的维度不同。LN是在一个输入中跨通道的标准化，BN是在一个batch中跨数据但是在同一个通道下进行标准化。在sequence数据中，一般使用LN而不是BN。

然后是decoder部分，这里的decoder的输入，也就是机器翻译的结果是需要右移一位的(shifted right)，因为第一位是<BOS>标签，作为一个句子的开头。对比encoder和decoder，主要区别在于decoder的第一层是一个Masked Multi-Head Attention。因为对于一个基于时间序列的预测来说，当然是不能通过未来的信息去预测的，所以在这个Masked Multi-Head Attention层中，所有的token输入只能看到前面的信息，而后面的信息都会被隐藏。

在这个Masked Multi-Head Attention层之后，会有一个普通的Multi-Head Attention，但是其中的Q和K是来源于encoder计算的结果，只有V是来自于上一层的输出。个人理解是Q和K可以寻找不同token在这个sequence之间的相关性，所以encoder的输出要拿来给decoder使用。

Fig. 11. Transformer inference. Adapted from ^[4]

如上图所示^[4]，在预测的时候，因为不知道翻译的结果，所以只能一个一个预测，将第一个预测出的词放到这个序列的第二个输入才能依次预测出整个句子。在训练的时候因为知道了全部内容，所以可以并行，但是在预测中是不行的。...

本文主要会讲最初的Transformer，Vision Transformer(ViT)和Multi-scale Vision Transformer(MViT)。

最初的Transformer

解决并行问题

Fig. 1. RNN layer. Adapted from ^[4]

Fig. 2. Convolutional layer. Adapted from ^[4]

如上图所示, 使用卷积层^[5]虽然可以并行计算，但是覆盖面积受到卷积核(kernel)的限制，无法在距离比较远的token中提取特征。

Fig. 3. Stacked convolutional layer. Adapted from ^[4]

如上图所示，很多人会通过将卷积层堆叠起来以达到提取更多特征的目的，但是这个覆盖范围其实依然并不是很宽，而且也需要更多的计算。

我们需要的是一个有长时记忆，并且可以并行处理的结构。所以这篇论文提出了Self-attention机制和Multi-Head Attention Layer。

Fig. 4. Calculation of $K^i$ and $Q^i$ in self-attention layer. Adapted from ^[4]

Fig. 5. Calculation of $b^i$ in self-attention layer. Adapted from ^[4]

然后，再对计算出来的$\hat{\alpha}_{1,1}$到$\hat{\alpha}_{1,4}$和$v$相乘求和。以第一个token为例，它的attention层输出是，
$$
b^1 = \sum_i\hat{\alpha}_{1,i}v^i
$$

Fig. 6. Matrix multiplication form in self-attention layer. Adapted from ^[4]

Transformer结构

Fig. 7. Scaled dot product attention. Adapted from ^[1]

$$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_K}})V$$

Fig. 8. Multi-head attention. Adapted from ^[4]

Fig. 9. Transformer structure. Adapted from ^[1]

Fig. 10. Layer normalization. Adapted from ^[4]

Fig. 11. Transformer inference. Adapted from ^[4]

本文主要会讲最初的Transformer，Vision Transformer(ViT)和Multi-scale Vision Transformer(MViT)。

最初的Transformer

解决并行问题

Fig. 1. RNN layer. Adapted from ^[4]

Fig. 2. Convolutional layer. Adapted from ^[4]

如上图所示, 使用卷积层^[5]虽然可以并行计算，但是覆盖面积受到卷积核(kernel)的限制，无法在距离比较远的token中提取特征。

Fig. 3. Stacked convolutional layer. Adapted from ^[4]

如上图所示，很多人会通过将卷积层堆叠起来以达到提取更多特征的目的，但是这个覆盖范围其实依然并不是很宽，而且也需要更多的计算。

我们需要的是一个有长时记忆，并且可以并行处理的结构。所以这篇论文提出了Self-attention机制和Multi-Head Attention Layer。

Fig. 4. Calculation of $K^i$ and $Q^i$ in self-attention layer. Adapted from ^[4]

Fig. 5. Calculation of $b^i$ in self-attention layer. Adapted from ^[4]

然后，再对计算出来的$\hat{\alpha}_{1,1}$到$\hat{\alpha}_{1,4}$和$v$相乘求和。以第一个token为例，它的attention层输出是，
$$
b^1 = \sum_i\hat{\alpha}_{1,i}v^i
$$

Fig. 6. Matrix multiplication form in self-attention layer. Adapted from ^[4]

Transformer结构

Fig. 7. Scaled dot product attention. Adapted from ^[1]

$$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_K}})V$$

Fig. 8. Multi-head attention. Adapted from ^[4]

Fig. 9. Transformer structure. Adapted from ^[1]

Fig. 10. Layer normalization. Adapted from ^[4]

Fig. 11. Transformer inference. Adapted from ^[4]