Vision Transformer（ViT）簡介

近些年，隨著基於自注意（Self-Attention）結構的模型的發展，特別是Transformer模型的提出，極大的促進了自然語言處理模型的發展。由於Transformers的計算效率和可擴充套件性，它已經能夠訓練具有超過100B引數的空前規模的模型。

ViT則是自然語言處理和計算機視覺兩個領域的融合結晶。在不依賴卷積操作的情況下，依然可以在影象分類任務上達到很好的效果。

模型結構

ViT模型的主體結構是基於Transformer模型的Encoder部分（部分結構順序有調整，如：normalization的位置與標準Transformer不同），其結構圖如下：

模型特點

ViT模型是應用於影象分類領域。因此，其模型結構相較於傳統的Transformer有以下幾個特點：

資料集的原影象被劃分為多個patch後，將二維patch（不考慮channel）轉換為一維向量，再加上類別向量與位置向量作為模型輸入。
模型主體的Block基於Transformer的Encoder部分，但是調整了normaliztion的位置，其中，最主要的結構依然是Multi-head Attention結構。
模型在Blocks堆疊後接全連線層接受類別向量輸出用於分類。通常情況下，我們將最後的全連線層稱為Head，Transformer Encoder部分為backbone。

下面將通過程式碼例項來詳細解釋基於ViT實現ImageNet分類任務。

環境準備與資料讀取

本案例基於MindSpore-GPU版本，在單GPU卡上完成模型訓練和驗證。

首先匯入相關模組，配置相關超引數並讀取資料集，該部分程式碼在Vision套件中都有API可直接呼叫，詳情可以參考以下連結：http://gitee.com/mindspore/vision 。

可通過:http://image-net.org/ 進行資料集下載。

載入前先定義資料集路徑，請確保你的資料集路徑如以下結構。

.ImageNet/ ├── ILSVRC2012_devkit_t12.tar.gz ├── train/ └── val/

``` from mindspore import context from mindvision.classification.dataset import ImageNet

context.set_context(mode=context.GRAPH_MODE, device_target='GPU')

data_url = './ImageNet/' resize = 224 batch_size = 16

dataset_train = ImageNet(data_url, split="train", shuffle=True, resize=resize, batch_size=batch_size, repeat_num=1, num_parallel_workers=1).run() ```

模型解析

下面將通過程式碼來細緻剖析ViT模型的內部結構。

Transformer基本原理

Transformer模型源於2017年的一篇文章[2]。在這篇文章中提出的基於Attention機制的編碼器-解碼器型結構在自然語言處理領域獲得了巨大的成功。模型結構如下圖所示：

其主要結構為多個Encoder和Decoder模組所組成，其中Encoder和Decoder的詳細結構如下圖所示：

Encoder與Decoder由許多結構組成，如：多頭注意力（Multi-Head Attention）層，Feed Forward層，Normaliztion層，甚至殘差連線（Residual Connection，圖中的“add”）。不過，其中最重要的結構是多頭注意力（Multi-Head Attention）結構，該結構基於自注意力（Self-Attention）機制，是多個Self-Attention的並行組成。

所以，理解了Self-Attention就抓住了Transformer的核心。

Attention模組

以下是Self-Attention的解釋，其核心內容是為輸入向量的每個單詞學習一個權重。通過給定一個任務相關的查詢向量Query向量，計算Query和各個Key的相似性或者相關性得到注意力分佈，即得到每個Key對應Value的權重係數，然後對Value進行加權求和得到最終的Attention數值。

在Self-Attention中:

最初的輸入向量首先會經過Embedding層對映成Q（Query），K（Key），V（Value）三個向量，由於是並行操作，所以程式碼中是對映成為dim x 3的向量然後進行分割，換言之，如果你的輸入向量為一個向量序列（ 1x1 1x1， 2x2 2x2， 3x3 3x3），其中的 1x1 1x1， 2x2 2x2， 3x3 3x3都是一維向量，那麼每一個一維向量都會經過Embedding層映射出Q，K，V三個向量，只是Embedding矩陣不同，矩陣引數也是通過學習得到的。這裡大家可以認為，Q，K，V三個矩陣是發現向量之間關聯資訊的一種手段，需要經過學習得到，至於為什麼是Q，K，V三個，主要是因為需要兩個向量點乘以獲得權重，又需要另一個向量來承載權重向加的結果，所以，最少需要3個矩陣，也是論文作者經過實驗得出的結論。

[公式]

自注意力機制的自注意主要體現在它的Q，K，V都來源於其自身，也就是該過程是在提取輸入的不同順序的向量的聯絡與特徵，最終通過不同順序向量之間的聯絡緊密性（Q與K乘積經過softmax的結果）來表現出來。Q，K，V得到後就需要獲取向量間權重，需要對Q和K進行點乘併除以維度的平方根 ⎯⎯√d ⎯⎯√d，對所有向量的結果進行Softmax處理，通過公式(2)的操作，我們獲得了向量之間的關係權重。

[公式]

3.其最終輸出則是通過V這個對映後的向量與QK經過Softmax結果進行weight sum獲得，這個過程可以理解為在全域性上進行自注意表示。每一組QKV最後都有一個V輸出，這是Self-Attention得到的最終結果，是當前向量在結合了它與其他向量關聯權重後得到的結果。

[公式]

通過下圖可以整體把握Self-Attention的全部過程。

多頭注意力機制就是將原本self-Attention處理的向量分割為多個Head進行處理，這一點也可以從程式碼中體現，這也是attention結構可以進行並行加速的一個方面。

總結來說，多頭注意力機制在保持引數總量不變的情況下，將同樣的query, key和value對映到原來的高維空間（Q,K,V）的不同子空間(Q_0,K_0,V_0)中進行自注意力的計算，最後再合併不同子空間中的注意力資訊。

所以，對於同一個輸入向量，多個注意力機制可以同時對其進行處理，即利用平行計算加速處理過程，又在處理的時候更充分的分析和利用了向量特徵。下圖展示了多頭注意力機制，其並行能力的主要體現在下圖中的$a_1$和$a_2$是同一個向量進行分割獲得的。

以下是vision套件中的Multi-Head Attention程式碼，結合上文的解釋，程式碼清晰的展現了這一過程。

``` import mindspore.nn as nn

class Attention(nn.Cell): def init(self, dim: int, num_heads: int = 8, keep_prob: float = 1.0, attention_keep_prob: float = 1.0): super(Attention, self).init()

    self.num_heads = num_heads
    head_dim = dim // num_heads
    self.scale = Tensor(head_dim ** -0.5)

    self.qkv = nn.Dense(dim, dim * 3)
    self.attn_drop = nn.Dropout(attention_keep_prob)
    self.out = nn.Dense(dim, dim)
    self.out_drop = nn.Dropout(keep_prob)

    self.mul = P.Mul()
    self.reshape = P.Reshape()
    self.transpose = P.Transpose()
    self.unstack = P.Unstack(axis=0)
    self.attn_matmul_v = P.BatchMatMul()
    self.q_matmul_k = P.BatchMatMul(transpose_b=True)
    self.softmax = nn.Softmax(axis=-1)

def construct(self, x):
    """Attention construct."""
    b, n, c = x.shape

    # 最初的輸入向量首先會經過Embedding層對映成Q(Query)，K(Key)，V(Value)三個向量
    # 由於是並行操作，所以程式碼中是對映成為dim*3的向量然後進行分割
    qkv = self.qkv(x)

    #多頭注意力機制就是將原本self-Attention處理的向量分割為多個Head進行處理
    qkv = self.reshape(qkv, (b, n, 3, self.num_heads, c // self.num_heads))
    qkv = self.transpose(qkv, (2, 0, 3, 1, 4))
    q, k, v = self.unstack(qkv)

    # 自注意力機制的自注意主要體現在它的Q，K，V都來源於其自身
    # 也就是該過程是在提取輸入的不同順序的向量的聯絡與特徵
    # 最終通過不同順序向量之間的聯絡緊密性（Q與K乘積經過softmax的結果）來表現出來
    attn = self.q_matmul_k(q, k)
    attn = self.mul(attn, self.scale)
    attn = self.softmax(attn)
    attn = self.attn_drop(attn)

    # 其最終輸出則是通過V這個對映後的向量與QK經過Softmax結果進行weight sum獲得
    # 這個過程可以理解為在全域性上進行自注意表示
    out = self.attn_matmul_v(attn, v)
    out = self.transpose(out, (0, 2, 1, 3))
    out = self.reshape(out, (b, n, c))
    out = self.out(out)
    out = self.out_drop(out)

    return out

```

Transformer Encoder

在瞭解了Self-Attention結構之後，通過與Feed Forward，Residual Connection等結構的拼接就可以形成Transformer的基礎結構，接下來就利用Self-Attention來構建ViT模型中的TransformerEncoder部分，類似於構建了一個Transformer的編碼器部分。

ViT模型中的基礎結構與標準Transformer有所不同，主要在於Normalization的位置是放在Self-Attention和Feed Forward之前,其他結構如Residual Connection，Feed Forward，Normalization都如Transformer中所設計。
從transformer結構的圖片可以發現，多個子encoder的堆疊就完成了模型編碼器的構建，在ViT模型中，依然沿用這個思路，通過配置超引數num_layers，就可以確定堆疊層數。
Residual Connection，Normalization的結構可以保證模型有很強的擴充套件性（保證資訊經過深層處理不會出現退化的現象，這是Residual Connection的作用），Normalization和dropout的應用可以增強模型泛化能力。

從以下原始碼中就可以清晰看到Transformer的結構。將TransformerEncoder結構和一個多層感知器（MLP）結合，就構成了ViT模型的backbone部分。

``` class TransformerEncoder(nn.Cell): def init(self, dim: int, num_layers: int, num_heads: int, mlp_dim: int, keep_prob: float = 1., attention_keep_prob: float = 1.0, drop_path_keep_prob: float = 1.0, activation: nn.Cell = nn.GELU, norm: nn.Cell = nn.LayerNorm): super(TransformerEncoder, self).init() layers = []

    # 從vit_architecture圖可以發現，多個子encoder的堆疊就完成了模型編碼器的構建
    # 在ViT模型中，依然沿用這個思路，通過配置超引數num_layers，就可以確定堆疊層數
    for _ in range(num_layers):
        normalization1 = norm((dim,))
        normalization2 = norm((dim,))
        attention = Attention(dim=dim,
                              num_heads=num_heads,
                              keep_prob=keep_prob,
                              attention_keep_prob=attention_keep_prob)

        feedforward = FeedForward(in_features=dim,
                                  hidden_features=mlp_dim,
                                  activation=activation,
                                  keep_prob=keep_prob)

        # ViT模型中的基礎結構與標準Transformer有所不同
        # 主要在於Normalization的位置是放在Self-Attention和Feed Forward之前
        # 其他結構如Residual Connection，Feed Forward，Normalization都如Transformer中所設計
        layers.append(
            nn.SequentialCell([
                # Residual Connection，Normalization的結構可以保證模型有很強的擴充套件性
                # 保證資訊經過深層處理不會出現退化的現象，這是Residual Connection的作用
                # Normalization和dropout的應用可以增強模型泛化能力
                ResidualCell(nn.SequentialCell([normalization1,
                                                attention])),

                ResidualCell(nn.SequentialCell([normalization2,
                                                feedforward]))
            ])
        )
    self.layers = nn.SequentialCell(layers)

def construct(self, x):
    """Transformer construct."""
    return self.layers(x)

```

ViT模型的輸入

傳統的Transformer結構主要用於處理自然語言領域的詞向量（Word Embedding or Word Vector），詞向量與傳統影象資料的主要區別在於，詞向量通常是1維向量進行堆疊，而圖片則是二維矩陣的堆疊，多頭注意力機制在處理1維詞向量的堆疊時會提取詞向量之間的聯絡也就是上下文語義，這使得Transformer在自然語言處理領域非常好用，而2維圖片矩陣如何與1維詞向量進行轉化就成為了Transformer進軍影象處理領域的一個小門檻。

在ViT模型中：

通過將輸入影象在每個channel上劃分為1616個patch，這一步是通過卷積操作來完成的，當然也可以人工進行劃分，但卷積操作也可以達到目的同時還可以進行一次而外的資料處理； 例如一幅輸入224 x 224的影象，首先經過卷積處理得到16 x 16個patch，那麼每一個patch的大小就是14 x 14。*
再將每一個patch的矩陣拉伸成為一個1維向量，從而獲得了近似詞向量堆疊的效果。上一步得道的14 x 14的patch就轉換為長度為196的向量。

這是影象輸入網路經過的第一步處理。具體Patch Embedding的程式碼如下所示：

``` class PatchEmbedding(nn.Cell): MIN_NUM_PATCHES = 4 def init(self, image_size: int = 224, patch_size: int = 16, embed_dim: int = 768, input_channels: int = 3): super(PatchEmbedding, self).init()

    self.image_size = image_size
    self.patch_size = patch_size
    self.num_patches = (image_size // patch_size) ** 2

    # 通過將輸入影象在每個channel上劃分為16*16個patch
    self.conv = nn.Conv2d(input_channels, embed_dim, kernel_size=patch_size, stride=patch_size, has_bias=True)
    self.reshape = P.Reshape()
    self.transpose = P.Transpose()

def construct(self, x):
    """Path Embedding construct."""
    x = self.conv(x)
    b, c, h, w = x.shape

    # 再將每一個patch的矩陣拉伸成為一個1維向量，從而獲得了近似詞向量堆疊的效果；
    x = self.reshape(x, (b, c, h * w))
    x = self.transpose(x, (0, 2, 1))

    return x

```

由論文中的模型結構可以得知，輸入影象在劃分為patch之後，會經過pos_embedding 和 class_embedding兩個過程。

class_embedding主要借鑑了BERT模型的用於文字分類時的思想，在每一個word vector之前增加一個類別值，通常是加在向量的第一位,上一步得到的196維的向量加上class_embedding後變為197維。
增加的class_embedding是一個可以學習的引數，經過網路的不斷訓練，最終以輸出向量的第一個維度的輸出來決定最後的輸出類別；由於輸入是16 x 16個patch，所以輸出進行分類時是取 16 x 16個class_embedding進行分類。
pos_embedding也是一組可以學習的引數，會被加入到經過處理的patch矩陣中。
由於pos_embedding也是可以學習的引數，所以它的加入類似於全連結網路和卷積的bias。這一步就是創造一個長度維197的可訓練向量加入到經過class_embedding的向量中。

從論文中可以得到，pos_embedding總共有4中方案。但是經過作者的論證，只有加上pos_embedding和不加pos_embedding有明顯影響，至於pos_embedding是1維還是2維對分類結果影響不大，所以，在我們的程式碼中，也是採用了1維的pos_embedding，由於class_embedding是加在pos_embedding之前，所以pos_embedding的維度會比patch拉伸後的維度加1。

總的而言，ViT模型還是利用了Transformer模型在處理上下文語義時的優勢，將影象轉換為一種“變種詞向量”然後進行處理，而這樣轉換的意義在於，多個patch之間本身具有空間聯絡，這類似於一種“空間語義”，從而獲得了比較好的處理效果。

整體構建ViT

以下程式碼構建了一個完整的ViT模型。

``` from typing import Optional

class ViT(nn.Cell): def init(self, image_size: int = 224, input_channels: int = 3, patch_size: int = 16, embed_dim: int = 768, num_layers: int = 12, num_heads: int = 12, mlp_dim: int = 3072, keep_prob: float = 1.0, attention_keep_prob: float = 1.0, drop_path_keep_prob: float = 1.0, activation: nn.Cell = nn.GELU, norm: Optional[nn.Cell] = nn.LayerNorm, pool: str = 'cls') -> None: super(ViT, self).init()

    self.patch_embedding = PatchEmbedding(image_size=image_size,
                                          patch_size=patch_size,
                                          embed_dim=embed_dim,
                                          input_channels=input_channels)
    num_patches = self.patch_embedding.num_patches

    # 此處增加class_embedding和pos_embedding，如果不是進行分類任務
    # 可以只增加pos_embedding，通過pool引數進行控制
    self.cls_token = init(init_type=Normal(sigma=1.0),
                          shape=(1, 1, embed_dim),
                          dtype=ms.float32,
                          name='cls',
                          requires_grad=True)

    # pos_embedding也是一組可以學習的引數，會被加入到經過處理的patch矩陣中
    self.pos_embedding = init(init_type=Normal(sigma=1.0),
                              shape=(1, num_patches + 1, embed_dim),
                              dtype=ms.float32,
                              name='pos_embedding',
                              requires_grad=True)

    # axis=1定義了會在向量的開頭加入class_embedding
    self.concat = P.Concat(axis=1)

    self.pool = pool
    self.pos_dropout = nn.Dropout(keep_prob)
    self.norm = norm((embed_dim,))
    self.tile = P.Tile()
    self.transformer = TransformerEncoder(dim=embed_dim,
                                          num_layers=num_layers,
                                          num_heads=num_heads,
                                          mlp_dim=mlp_dim,
                                          keep_prob=keep_prob,
                                          attention_keep_prob=attention_keep_prob,
                                          drop_path_keep_prob=drop_path_keep_prob,
                                          activation=activation,
                                          norm=norm)

def construct(self, x):
    """ViT construct."""
    x = self.patch_embedding(x)

    # class_embedding主要借鑑了BERT模型的用於文字分類時的思想
    # 在每一個word vector之前增加一個類別值，通常是加在向量的第一位
    cls_tokens = self.tile(self.cls_token, (x.shape[0], 1, 1))
    x = self.concat((cls_tokens, x))
    x += self.pos_embedding

    x = self.pos_dropout(x)
    x = self.transformer(x)
    x = self.norm(x)

    # 增加的class_embedding是一個可以學習的引數，經過網路的不斷訓練
    # 最終以輸出向量的第一個維度的輸出來決定最後的輸出類別；
    x = x[:, 0]

    return x

```

模型訓練與推理\ 模型訓練\ 模型開始訓練前，需要設定損失函式，優化器，回撥函式等，直接呼叫mindvision提供的介面可以方便完成例項化。

``` import mindspore.nn as nn from mindspore.train import Model from mindspore.train.callback import ModelCheckpoint, CheckpointConfig

from mindvision.classification.models import vit_b_16 from mindvision.engine.callback import LossMonitor from mindvision.engine.loss import CrossEntropySmooth

定義超引數

epoch_size = 10 momentum = 0.9 step_size = dataset_train.get_dataset_size() num_classes = 1000

構建模型

network = vit_b_16(num_classes=num_classes, image_size=resize, pretrained=True)

定義遞減的學習率

lr = nn.cosine_decay_lr(min_lr=float(0), max_lr=0.003, total_step=epoch_size * step_size, step_per_epoch=step_size, decay_epoch=90)

定義優化器

network_opt = nn.Adam(network.trainable_params(), lr, momentum)

定義損失函式

network_loss = CrossEntropySmooth(sparse=True, reduction="mean", smooth_factor=0.1, classes_num=num_classes)

設定checkpoint

ckpt_config = CheckpointConfig(save_checkpoint_steps=step_size, keep_checkpoint_max=100) ckpt_callback = ModelCheckpoint(prefix='vit_b_16', directory='./ViT', config=ckpt_config)

初始化模型

model = Model(network, loss_fn=network_loss, optimizer=network_opt, metrics={"acc"})

訓練

model.train(epoch_size, dataset_train, callbacks=[ckpt_callback, LossMonitor(lr)], dataset_sink_mode=False) ```

結果：

Epoch:[ 0/ 10], step:[ 1/80072], loss:[1.963/1.963], time:8171.241 ms, lr:0.00300 Epoch:[ 0/ 10], step:[ 2/80072], loss:[7.809/4.886], time:769.321 ms, lr:0.00300 Epoch:[ 0/ 10], step:[ 3/80072], loss:[8.851/6.208], time:779.355 ms, lr:0.00300 .... Epoch:[ 9/ 10], step:[80070/80072], loss:[1.112/6.657], time:780.714 ms, lr:0.00240 Epoch:[ 9/ 10], step:[80071/80072], loss:[1.111/6.708], time:781.860 ms, lr:0.00240 Epoch:[ 9/ 10], step:[80072/80072], loss:[1.102/6.777], time:782.859 ms, lr:0.00240

模型驗證

模型驗證過程主要應用了nn，Model，context，ImageNet，CrossEntropySmooth和vit_b_16等介面。

通過改變ImageNet介面的split引數即可呼叫驗證集。

與訓練過程相似，首先呼叫vit_b_16介面定義網路結構，載入預訓練模型引數。隨後設定損失函式，評價指標等，編譯模型後進行驗證。

``` dataset_analyse = ImageNet(data_url, split="val", num_parallel_workers=1, resize=resize, batch_size=batch_size) dataset_eval = dataset_analyse.run()

network = vit_b_16(num_classes=num_classes, image_size=resize, pretrained=True)

network_loss = CrossEntropySmooth(sparse=True, reduction="mean", smooth_factor=0.1, classes_num=num_classes)

定義評價指標

eval_metrics = {'Top_1_Accuracy': nn.Top1CategoricalAccuracy(), 'Top_5_Accuracy': nn.Top5CategoricalAccuracy()}

model = Model(network, network_loss, metrics=eval_metrics)

評估模型

result = model.eval(dataset_eval) print(result) ```

結果：

{'Top_1_Accuracy': 0.73524, 'Top_5_Accuracy': 0.91756}

模型推理

在進行模型推理之前，首先要定義一個對推理圖片進行資料預處理的方法。該方法可以對我們的推理圖片進行resize和normalize處理，這樣才能與我們訓練時的輸入資料匹配。

``` import mindspore.dataset.vision.c_transforms as transforms

資料預處理操作

def infer_transform(dataset, columns_list, resize):

mean = [0.485 * 255, 0.456 * 255, 0.406 * 255]
std = [0.229 * 255, 0.224 * 255, 0.225 * 255]

trans = [transforms.Decode(),
         transforms.Resize([resize, resize]),
         transforms.Normalize(mean=mean, std=std),
         transforms.HWC2CHW()]

dataset = dataset.map(operations=trans,
                      input_columns=columns_list[0],
                      num_parallel_workers=1)
dataset = dataset.batch(1)

return dataset

```

接下來，我們將呼叫模型的predict方法進行模型推理，需要注意的是，推理圖片需要自備，同時給予準確的路徑利用read_dataset介面讀推理圖片路徑，利用GeneratorDataset來生成測試集。

在推理過程中，ImageNet介面主要負責對原資料集標籤和模型輸出進行配對。通過index2label就可以獲取對應標籤，再通過show_result介面將結果寫在對應圖片上。

``` import numpy as np

import mindspore.dataset as ds from mindspore import Tensor

from mindvision.dataset.generator import DatasetGenerator from mindvision.dataset.download import read_dataset from mindvision.classification.utils.image import show_result

讀取推理圖片

image_list, image_label = read_dataset('./infer') columns_list = ('image', 'label')

dataset_infer = ds.GeneratorDataset(DatasetGenerator(image_list, image_label), column_names=list(columns_list), num_parallel_workers=1)

dataset_infer = infer_transform(dataset_infer, columns_list, resize)

讀取資料進行推理

for i, image in enumerate(dataset_infer.create_dict_iterator(output_numpy=True)): image = image["image"] image = Tensor(image) prob = model.predict(image) label = np.argmax(prob.asnumpy(), axis=1)

predict = dataset_analyse.index2label[int(label)]
output = {int(label): predict}
print(output)
show_result(img=image_list[i], result=output, out_file=image_list[i])

```

結果：

{236: 'Doberman'}

推理過程完成後，在推理資料夾下可以找到圖片的推理結果，如下圖所示：

總結

本案例完成了一個ViT模型在ImageNet資料上進行訓練，驗證和推理的過程，其中，對關鍵的ViT模型結構和原理作了講解。通過學習本案例，理解原始碼可以幫助學員掌握Multi-Head Attention，TransformerEncoder，pos_embedding等關鍵概念，如果要詳細理解ViT的模型原理，建議基於原始碼更深層次的詳細閱讀，可以參考vision套件：

http://gitee.com/mindspore/vision/tree/master/examples/classification/vit 。

引用

[1] Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020).

[2] Vaswani, Ashish, et al. "Attention is all you need."Advances in Neural Information Processing Systems. (2017).

Vision Transformer影象分類(MindSpore實現)

Vision Transformer（ViT）簡介

模型結構

模型特點

環境準備與資料讀取

模型解析

Transformer基本原理

Attention模組

Transformer Encoder

ViT模型的輸入

整體構建ViT

定義超引數

構建模型

定義遞減的學習率

定義優化器

定義損失函式

設定checkpoint

初始化模型

訓練

模型驗證

定義評價指標

評估模型

模型推理

資料預處理操作

讀取推理圖片

讀取資料進行推理

總結

引用