登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
我知道了
查看详情
登录
注册
代码拉取完成,页面将自动刷新
开源项目
>
其他开源
>
图书/手册/教程
&&
人工智能
>
机器学习/深度学习
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
348
Star
1.6K
Fork
1K
MindSpore
/
docs
代码
Issues
1
Pull Requests
8
Wiki
统计
流水线
服务
Gitee Pages
JavaDoc
PHPDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
我知道了,不再自动展开
9479
修订Vision Transformer图像分类执行问题
已关闭
MindSpore:r1.9
MindSpore:master
kevinweijun
创建于 2022-10-11 16:56
克隆/下载
HTTPS
SSH
复制
下载 Email Patch
下载 Diff 文件
Vision Transformer图像分类代码执行问题 【Document Link】/【文档链接】 https://gitee.com/mindspore/docs/blob/r1.8/tutorials/application/source_zh_cn/cv/vit.ipynb#https://gitee.com/cui-xinyuwhc 【Issues Section】/【问题文档片段】 class Attention class TransformerEncoder class PatchEmbedding class ViT 【Existing Issues】/【存在的问题】 这些类的定义了,但其实并不会真正执行,并且相应代码中也有很多语法错误。 比如FeedForward就没有定义 feedforward = FeedForward(in_features=dim, hidden_features=mlp_dim, activation=activation, keep_prob=keep_prob) ResidualCell(nn.SequentialCell([normalization1, attention])), self.reshape = P.Reshape() self.transpose = P.Transpose() 第384,391,398,403行代码都是存在这样的问题。 【Expected Result】【预期结果】 这些类定义的代码,应该被正常执行,而不只是展示。 已将相关代码修复,完全可以运行了。[输入链接说明] #完整代码如下: #!/usr/bin/env python # coding: utf-8 # # Vision Transformer图像分类 # # [](https://obs.dualstack.cn-north-4.myhuaweicloud.com/mindspore-website/notebook/r1.8/tutorials/application/zh_cn/cv/mindspore_vit.ipynb) [](https://obs.dualstack.cn-north-4.myhuaweicloud.com/mindspore-website/notebook/r1.8/tutorials/application/zh_cn/cv/mindspore_vit.py) [](https://gitee.com/mindspore/docs/blob/r1.8/tutorials/application/source_zh_cn/cv/vit.ipynb) # # 作者:[崔馨予](https://gitee.com/cui-xinyuwhc)。 # # 本案例支持在GPU环境下运行。 # ## Vision Transformer(ViT)简介 # # 近些年,随着基于自注意(Self-Attention)结构的模型的发展,特别是Transformer模型的提出,极大地促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性,它已经能够训练具有超过100B参数的空前规模的模型。 # # ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下,依然可以在图像分类任务上达到很好的效果。 # # ### 模型结构 # # ViT模型的主体结构是基于Transformer模型的Encoder部分(部分结构顺序有调整,如:Normalization的位置与标准Transformer不同),其结构图[1]如下: # #  # # ### 模型特点 # # ViT模型主要应用于图像分类领域。因此,其模型结构相较于传统的Transformer有以下几个特点: # # 1. 数据集的原图像被划分为多个patch后,将二维patch(不考虑channel)转换为一维向量,再加上类别向量与位置向量作为模型输入。 # 2. 模型主体的Block结构是基于Transformer的Encoder结构,但是调整了Normalization的位置,其中,最主要的结构依然是Multi-head Attention结构。 # 3. 模型在Blocks堆叠后接全连接层,接受类别向量的输出作为输入并用于分类。通常情况下,我们将最后的全连接层称为Head,Transformer Encoder部分为backbone。 # # 下面将通过代码实例来详细解释基于ViT实现ImageNet分类任务。 # ## 环境准备与数据读取 # # 开始实验之前,请确保本地已经安装了Python环境并安装了[MindSpore Vision套件](https://mindspore.cn/vision/docs/zh-CN/r0.1/index.html)。 # # 首先导入相关模块,配置相关超参数并读取数据集,该部分代码在MindSpore Vision套件中都有API可直接调用,详情可以参考以下链接:https://www.mindspore.cn/vision/docs/zh-CN/r0.1/index.html 。 # # 可通过<http://image-net.org>下载完整的ImageNet数据集。 # # 本案例应用的数据集是从ImageNet中筛选出来的子集,运行第一段代码时会自动下载并解压。 # # 请确保你的数据集路径如以下结构。 # # ```text # .dataset/ # ├── ILSVRC2012_devkit_t12.tar.gz # ├── train/ # ├── infer/ # └── val/ # ``` # In[1]: from mindvision.dataset import DownLoad dataset_url = "https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/datasets/vit_dataset.zip" dl = DownLoad() dl.download_and_extract_archive(dataset_url, "./") # In[2]: import mindspore as ms #ms.set_context(mode=ms.PYNATIVE_MODE) from mindvision.classification.dataset import ImageNet ms.set_context(mode=ms.PYNATIVE_MODE, device_target='CPU') data_url = './dataset/' resize = 224 batch_size = 16 dataset_train = ImageNet(data_url, split="train", shuffle=True, resize=resize, batch_size=batch_size, repeat_num=1, num_parallel_workers=1).run() # ## 模型解析 # # 下面将通过代码来细致剖析ViT模型的内部结构。 # # ### Transformer基本原理 # # Transformer模型源于2017年的一篇文章[2]。在这篇文章中提出的基于Attention机制的编码器-解码器型结构在自然语言处理领域获得了巨大的成功。模型结构如下图所示: # #  # # 其主要结构为多个Encoder和Decoder模块所组成,其中Encoder和Decoder的详细结构如下图[2]所示: # #  # # Encoder与Decoder由许多结构组成,如:多头注意力(Multi-Head Attention)层,Feed Forward层,Normaliztion层,甚至残差连接(Residual Connection,图中的“Add”)。不过,其中最重要的结构是多头注意力(Multi-Head Attention)结构,该结构基于自注意力(Self-Attention)机制,是多个Self-Attention的并行组成。 # # 所以,理解了Self-Attention就抓住了Transformer的核心。 # #### Attention模块 # # 以下是Self-Attention的解释,其核心内容是为输入向量的每个单词学习一个权重。通过给定一个任务相关的查询向量Query向量,计算Query和各个Key的相似性或者相关性得到注意力分布,即得到每个Key对应Value的权重系数,然后对Value进行加权求和得到最终的Attention数值。 # # 在Self-Attention中: # # 1. 最初的输入向量首先会经过Embedding层映射成Q(Query),K(Key),V(Value)三个向量,由于是并行操作,所以代码中是映射成为dim x 3的向量然后进行分割,换言之,如果你的输入向量为一个向量序列($x_1$,$x_2$,$x_3$),其中的$x_1$,$x_2$,$x_3$都是一维向量,那么每一个一维向量都会经过Embedding层映射出Q,K,V三个向量,只是Embedding矩阵不同,矩阵参数也是通过学习得到的。**这里大家可以认为,Q,K,V三个矩阵是发现向量之间关联信息的一种手段,需要经过学习得到,至于为什么是Q,K,V三个,主要是因为需要两个向量点乘以获得权重,又需要另一个向量来承载权重向加的结果,所以,最少需要3个矩阵。** # # $$ # \begin{cases} # q_i = W_q \cdot x_i & \\ # k_i = W_k \cdot x_i,\hspace{1em} &i = 1,2,3 \ldots \\ # v_i = W_v \cdot x_i & # \end{cases} # \tag{1} # $$ # #  # # 2. 自注意力机制的自注意主要体现在它的Q,K,V都来源于其自身,也就是该过程是在提取输入的不同顺序的向量的联系与特征,最终通过不同顺序向量之间的联系紧密性(Q与K乘积经过Softmax的结果)来表现出来。**Q,K,V得到后就需要获取向量间权重,需要对Q和K进行点乘并除以维度的平方根,对所有向量的结果进行Softmax处理,通过公式(2)的操作,我们获得了向量之间的关系权重。** # # $$ # \begin{cases} # a_{1,1} = q_1 \cdot k_1 / \sqrt d \\ # a_{1,2} = q_1 \cdot k_2 / \sqrt d \\ # a_{1,3} = q_1 \cdot k_3 / \sqrt d # \end{cases} # \tag{2} # $$ # #  # # $$ Softmax: \hat a_{1,i} = exp(a_{1,i}) / \sum_j exp(a_{1,j}),\hspace{1em} j = 1,2,3 \ldots \tag{3}$$ # #  # # 3. 其最终输出则是通过V这个映射后的向量与Q,K经过Softmax结果进行weight sum获得,这个过程可以理解为在全局上进行自注意表示。**每一组Q,K,V最后都有一个V输出,这是Self-Attention得到的最终结果,是当前向量在结合了它与其他向量关联权重后得到的结果。** # # $$ # b_1 = \sum_i \hat a_{1,i}v_i,\hspace{1em} i = 1,2,3... # \tag{4} # $$ # # 通过下图可以整体把握Self-Attention的全部过程。 # #  # # 多头注意力机制就是将原本self-Attention处理的向量分割为多个Head进行处理,这一点也可以从代码中体现,这也是attention结构可以进行并行加速的一个方面。 # # 总结来说,多头注意力机制在保持参数总量不变的情况下,将同样的query, key和value映射到原来的高维空间(Q,K,V)的不同子空间(Q_0,K_0,V_0)中进行自注意力的计算,最后再合并不同子空间中的注意力信息。 # # 所以,对于同一个输入向量,多个注意力机制可以同时对其进行处理,即利用并行计算加速处理过程,又在处理的时候更充分的分析和利用了向量特征。下图展示了多头注意力机制,其并行能力的主要体现在下图中的$a_1$和$a_2$是同一个向量进行分割获得的。 # #  # # 以下是vision套件中的Multi-Head Attention代码,结合上文的解释,代码清晰的展现了这一过程。 # In[2]: from mindspore import nn, ops class Attention(nn.Cell): def __init__(self, dim: int, num_heads: int = 8, keep_prob: float = 1.0, attention_keep_prob: float = 1.0): super(Attention, self).__init__() self.num_heads = num_heads head_dim = dim // num_heads self.scale = ms.Tensor(head_dim ** -0.5)#缩放因子 self.qkv = nn.Dense(dim, dim * 3) self.attn_drop = nn.Dropout(attention_keep_prob) self.out = nn.Dense(dim, dim) self.out_drop = nn.Dropout(keep_prob) self.mul = ops.Mul() self.reshape = ops.Reshape() self.transpose = ops.Transpose() self.unstack = ops.Unstack(axis=0) self.attn_matmul_v = ops.BatchMatMul() self.q_matmul_k = ops.BatchMatMul(transpose_b=True) self.softmax = nn.Softmax(axis=-1) def construct(self, x): """Attention construct.""" b, n, c = x.shape # 最初的输入向量首先会经过Embedding层映射成Q(Query),K(Key),V(Value)三个向量 # 由于是并行操作,所以代码中是映射成为dim*3的向量然后进行分割 qkv = self.qkv(x) #多头注意力机制就是将原本self-Attention处理的向量分割为多个Head进行处理 qkv = self.reshape(qkv, (b, n, 3, self.num_heads, c // self.num_heads)) qkv = self.transpose(qkv, (2, 0, 3, 1, 4)) q, k, v = self.unstack(qkv) # 自注意力机制的自注意主要体现在它的Q,K,V都来源于其自身 # 也就是该过程是在提取输入的不同顺序的向量的联系与特征 # 最终通过不同顺序向量之间的联系紧密性(Q与K乘积经过Softmax的结果)来表现出来 attn = self.q_matmul_k(q, k) attn = self.mul(attn, self.scale) attn = self.softmax(attn) attn = self.attn_drop(attn) # 其最终输出则是通过V这个映射后的向量与QK经过Softmax结果进行weight sum获得 # 这个过程可以理解为在全局上进行自注意表示 out = self.attn_matmul_v(attn, v) out = self.transpose(out, (0, 2, 1, 3)) out = self.reshape(out, (b, n, c)) out = self.out(out) out = self.out_drop(out) return out # ### Transformer Encoder # # 在了解了Self-Attention结构之后,通过与Feed Forward,Residual Connection等结构的拼接就可以形成Transformer的基础结构,接下来就利用Self-Attention来构建ViT模型中的TransformerEncoder部分,类似于构建了一个Transformer的编码器部分,如下图[1]所示: # #  # # 1. ViT模型中的基础结构与标准Transformer有所不同,主要在于Normalization的位置是放在Self-Attention和Feed Forward之前,其他结构如Residual Connection,Feed Forward,Normalization都如Transformer中所设计。 # # 2. 从Transformer结构的图片可以发现,多个子encoder的堆叠就完成了模型编码器的构建,在ViT模型中,依然沿用这个思路,通过配置超参数num_layers,就可以确定堆叠层数。 # # 3. Residual Connection,Normalization的结构可以保证模型有很强的扩展性(保证信息经过深层处理不会出现退化的现象,这是Residual Connection的作用),Normalization和dropout的应用可以增强模型泛化能力。 # # 从以下源码中就可以清晰看到Transformer的结构。将TransformerEncoder结构和一个多层感知器(MLP)结合,就构成了ViT模型的backbone部分。 # In[3]: import mindspore.ops as P from mindspore.nn.transformer import FeedForward class ResidualCell(nn.Cell): """Cell which implements x + f(x) function.""" def __init__(self, cell): super().__init__() self.cell = cell def construct(self, x, **kwargs): return self.cell(x, **kwargs) + x class TransformerEncoder(nn.Cell): def __init__(self, dim: int, num_layers: int, num_heads: int, mlp_dim: int, keep_prob: float = 1., attention_keep_prob: float = 1.0, drop_path_keep_prob: float = 1.0, activation: nn.Cell = nn.GELU, norm: nn.Cell = nn.LayerNorm): super(TransformerEncoder, self).__init__() layers = [] # 从vit_architecture图可以发现,多个子encoder的堆叠就完成了模型编码器的构建 # 在ViT模型中,依然沿用这个思路,通过配置超参数num_layers,就可以确定堆叠层数 for _ in range(num_layers): normalization1 = norm((dim,)) normalization2 = norm((dim,)) attention = Attention(dim=dim, num_heads=num_heads, keep_prob=keep_prob, attention_keep_prob=attention_keep_prob) feedforward = FeedForward(hidden_size=dim, ffn_hidden_size=mlp_dim, dropout_rate=0.1) # ViT模型中的基础结构与标准Transformer有所不同 # 主要在于Normalization的位置是放在Self-Attention和Feed Forward之前 # 其他结构如Residual Connection,Feed Forward,Normalization都如Transformer中所设计 layers.append( nn.SequentialCell([ # Residual Connection,Normalization的结构可以保证模型有很强的扩展性 # 保证信息经过深层处理不会出现退化的现象,这是Residual Connection的作用 # Normalization和dropout的应用可以增强模型泛化能力 ResidualCell(nn.SequentialCell([normalization1, attention])), ResidualCell(nn.SequentialCell([normalization2, feedforward])) ]) ) self.layers = nn.SequentialCell(layers) def construct(self, x): """Transformer construct.""" return self.layers(x) # ### ViT模型的输入 # # 传统的Transformer结构主要用于处理自然语言领域的词向量(Word Embedding or Word Vector),词向量与传统图像数据的主要区别在于,词向量通常是1维向量进行堆叠,而图片则是二维矩阵的堆叠,多头注意力机制在处理1维词向量的堆叠时会提取词向量之间的联系也就是上下文语义,这使得Transformer在自然语言处理领域非常好用,而2维图片矩阵如何与1维词向量进行转化就成为了Transformer进军图像处理领域的一个小门槛。 # # 在ViT模型中: # # 1. 通过将输入图像在每个channel上划分为16*16个patch,这一步是通过卷积操作来完成的,当然也可以人工进行划分,但卷积操作也可以达到目的同时还可以进行一次而外的数据处理;**例如一幅输入224 x 224的图像,首先经过卷积处理得到16 x 16个patch,那么每一个patch的大小就是14 x 14。** # # 2. 再将每一个patch的矩阵拉伸成为一个1维向量,从而获得了近似词向量堆叠的效果。**上一步得到的14 x 14的patch就转换为长度为196的向量。** # # 这是图像输入网络经过的第一步处理。具体Patch Embedding的代码如下所示: # In[3]: class PatchEmbedding(nn.Cell): MIN_NUM_PATCHES = 4 def __init__(self, image_size: int = 224, patch_size: int = 16, embed_dim: int = 768, input_channels: int = 3): super(PatchEmbedding, self).__init__() self.image_size = image_size self.patch_size = patch_size self.num_patches = (image_size // patch_size) ** 2 # 通过将输入图像在每个channel上划分为16*16个patch self.conv = nn.Conv2d(input_channels, embed_dim, kernel_size=patch_size, stride=patch_size, has_bias=True) self.reshape = P.Reshape() self.transpose = P.Transpose() def construct(self, x): """Path Embedding construct.""" x = self.conv(x) b, c, h, w = x.shape # 再将每一个patch的矩阵拉伸成为一个1维向量,从而获得了近似词向量堆叠的效果; x = self.reshape(x, (b, c, h * w)) x = self.transpose(x, (0, 2, 1)) return x # 输入图像在划分为patch之后,会经过pos_embedding 和 class_embedding两个过程。 # # 1. class_embedding主要借鉴了BERT模型的用于文本分类时的思想,在每一个word vector之前增加一个类别值,通常是加在向量的第一位,**上一步得到的196维的向量加上class_embedding后变为197维。** # # 2. 增加的class_embedding是一个可以学习的参数,经过网络的不断训练,最终以输出向量的第一个维度的输出来决定最后的输出类别;**由于输入是16 x 16个patch,所以输出进行分类时是取 16 x 16个class_embedding进行分类。** # # 3. pos_embedding也是一组可以学习的参数,会被加入到经过处理的patch矩阵中。 # # 4. 由于pos_embedding也是可以学习的参数,所以它的加入类似于全链接网络和卷积的bias。**这一步就是创造一个长度维197的可训练向量加入到经过class_embedding的向量中。** # # 实际上,pos_embedding总共有4种方案。但是经过作者的论证,只有加上pos_embedding和不加pos_embedding有明显影响,至于pos_embedding是1维还是2维对分类结果影响不大,所以,在我们的代码中,也是采用了1维的pos_embedding,由于class_embedding是加在pos_embedding之前,所以pos_embedding的维度会比patch拉伸后的维度加1。 # # 总的而言,ViT模型还是利用了Transformer模型在处理上下文语义时的优势,将图像转换为一种“变种词向量”然后进行处理,而这样转换的意义在于,多个patch之间本身具有空间联系,这类似于一种“空间语义”,从而获得了比较好的处理效果。 # # ### 整体构建ViT # # 以下代码构建了一个完整的ViT模型。 # In[4]: from typing import Optional from mindspore.common.initializer import initializer from mindspore.common.parameter import Parameter from mindspore.common.initializer import Normal as Normal class ViT(nn.Cell): def __init__(self, image_size: int = 224, input_channels: int = 3, patch_size: int = 16, embed_dim: int = 768, num_layers: int = 12, num_heads: int = 12, mlp_dim: int = 3072, keep_prob: float = 1.0, attention_keep_prob: float = 1.0, drop_path_keep_prob: float = 1.0, activation: nn.Cell = nn.GELU, norm: Optional[nn.Cell] = nn.LayerNorm, pool: str = 'cls') -> None: super(ViT, self).__init__() self.patch_embedding = PatchEmbedding(image_size=image_size, patch_size=patch_size, embed_dim=embed_dim, input_channels=input_channels) num_patches = self.patch_embedding.num_patches # 此处增加class_embedding和pos_embedding,如果不是进行分类任务 # 可以只增加pos_embedding,通过pool参数进行控制 ''' self.cls_token = init(init_type=Normal(sigma=1.0), shape=(1, 1, embed_dim), dtype=ms.float32, name='cls', requires_grad=True) # pos_embedding也是一组可以学习的参数,会被加入到经过处理的patch矩阵中 self.pos_embedding = init(init_type=Normal(sigma=1.0), shape=(1, num_patches + 1, embed_dim), dtype=ms.float32, name='pos_embedding', requires_grad=True) ''' self.cls_token = Parameter(initializer(Normal(sigma=1.0), (1, 1, embed_dim)), name='cls', requires_grad=True) self.pos_embedding = Parameter(initializer(Normal(sigma=1.0), (1, num_patches + 1, embed_dim)), name='pos_embedding', requires_grad=True) # axis=1定义了会在向量的开头加入class_embedding self.concat = P.Concat(axis=1) self.pool = pool self.pos_dropout = nn.Dropout(keep_prob) self.norm = norm((embed_dim,)) self.tile = P.Tile() self.transformer = TransformerEncoder(dim=embed_dim, num_layers=num_layers, num_heads=num_heads, mlp_dim=mlp_dim, keep_prob=keep_prob, attention_keep_prob=attention_keep_prob, drop_path_keep_prob=drop_path_keep_prob, activation=activation, norm=norm) def construct(self, x): """ViT construct.""" x = self.patch_embedding(x) # class_embedding主要借鉴了BERT模型的用于文本分类时的思想 # 在每一个word vector之前增加一个类别值,通常是加在向量的第一位 cls_tokens = self.tile(self.cls_token, (x.shape[0], 1, 1)) x = self.concat((cls_tokens, x)) x += self.pos_embedding x = self.pos_dropout(x) x = self.transformer(x) x = self.norm(x) # 增加的class_embedding是一个可以学习的参数,经过网络的不断训练 # 最终以输出向量的第一个维度的输出来决定最后的输出类别; x = x[:, 0] return x # 整体流程图如下所示: # #  # ## 模型训练与推理 # # ### 模型训练 # # 模型开始训练前,需要设定损失函数,优化器,回调函数等,直接调用MindSpore Vision提供的接口可以方便完成实例化。 # # 完整训练ViT模型需要很长的时间,实际应用时建议根据项目需要调整epoch_size,当正常输出每个Epoch的step信息时,意味着训练正在进行,通过模型输出可以查看当前训练的loss值和时间等指标。 # In[3]: import mindspore.nn as nn from mindvision.classification.models import vit_b_16 from mindvision.engine.callback import LossMonitor from mindvision.engine.loss import CrossEntropySmooth # 定义超参数 epoch_size = 1 momentum = 0.9 step_size = dataset_train.get_dataset_size() num_classes = 1000 ''' # 构建模型 #network = vit_b_16(num_classes=num_classes, image_size=resize, pretrained=True) network = ViT() # 定义递减的学习率 lr = nn.cosine_decay_lr(min_lr=float(0), max_lr=0.003, total_step=epoch_size * step_size, step_per_epoch=step_size, decay_epoch=90) # 定义优化器 network_opt = nn.Adam(network.trainable_params(), lr, momentum) # 定义损失函数 network_loss = CrossEntropySmooth(sparse=True, reduction="mean", smooth_factor=0.1, classes_num=num_classes) # 设定checkpoint ckpt_config = ms.CheckpointConfig(save_checkpoint_steps=step_size, keep_checkpoint_max=100) ckpt_callback = ms.ModelCheckpoint(prefix='vit_b_16', directory='./ViT', config=ckpt_config) # 初始化模型 model = ms.Model(network, loss_fn=network_loss, optimizer=network_opt, metrics={"acc"}) # 训练 model.train(epoch_size, dataset_train, callbacks=[ckpt_callback, LossMonitor(lr)], dataset_sink_mode=False) ''' # ### 模型验证 # # 模型验证过程主要应用了Model,ImageNet,CrossEntropySmooth和vit_b_16等接口。 # # Model主要用于编译模型。 # # ImageNet主要用于读取数据集。 # # CrossEntropySmooth是损失函数实例化接口。 # # vit_b_16是MindSpore Vision提供的模型实例化接口。 # # 通过改变ImageNet接口的split参数即可调用验证集。 # # 与训练过程相似,首先调用vit_b_16接口定义网络结构,加载预训练模型参数。随后设置损失函数,评价指标等,编译模型后进行验证。本案例采用了业界通用的评价标准Top_1_Accuracy和Top_5_Accuracy评价指标来评价模型表现。 # # 在本案例中,这两个指标代表了在输出的1000维向量中,以最大值或前5的输出值所代表的类别为预测结果时,模型预测的准确率。这两个指标的值越大,代表模型准确率越高。 # In[3]: dataset_analyse = ImageNet(data_url, split="val", num_parallel_workers=1, resize=resize, batch_size=batch_size) dataset_eval = dataset_analyse.run() network = vit_b_16(num_classes=num_classes, image_size=resize, pretrained=True) network_loss = CrossEntropySmooth(sparse=True, reduction="mean", smooth_factor=0.1, classes_num=num_classes) # 定义评价指标 eval_metrics = {'Top_1_Accuracy': nn.Top1CategoricalAccuracy(), 'Top_5_Accuracy': nn.Top5CategoricalAccuracy()} model = ms.Model(network, network_loss, metrics=eval_metrics) # 评估模型 #result = model.eval(dataset_eval) #print(result) # 从结果可以看出,由于我们加载了预训练模型参数,模型的Top_1_Accuracy和Top_5_Accuracy达到了很高的水平,实际项目中也可以以此准确率为标准。如果未使用预训练模型参数,则需要更多的epoch来训练。 # ### 模型推理 # # 在进行模型推理之前,首先要定义一个对推理图片进行数据预处理的方法。该方法可以对我们的推理图片进行resize和normalize处理,这样才能与我们训练时的输入数据匹配。 # # 本案例采用了一张Doberman的图片作为推理图片来测试模型表现,期望模型可以给出正确的预测结果。 # In[4]: import mindspore.dataset.vision as vision # 数据预处理操作 def infer_transform(dataset, columns_list, resize): mean = [0.485 * 255, 0.456 * 255, 0.406 * 255] std = [0.229 * 255, 0.224 * 255, 0.225 * 255] trans = [vision.Decode(), vision.Resize([resize, resize]), vision.Normalize(mean=mean, std=std), vision.HWC2CHW()] dataset = dataset.map(operations=trans, input_columns=columns_list[0], num_parallel_workers=1) dataset = dataset.batch(1) return dataset # 接下来,我们将调用模型的predict方法进行模型推理,利用read_dataset接口读推理图片路径,利用GeneratorDataset来生成测试集。 # # 在推理过程中,ImageNet接口主要负责对原数据集标签和模型输出进行配对。通过index2label就可以获取对应标签,再通过show_result接口将结果写在对应图片上。 # In[6]: import numpy as np import mindspore.dataset as ds from mindvision.dataset.generator import DatasetGenerator from mindvision.dataset.download import read_dataset from mindvision.classification.utils.image import show_result # 读取推理图片 image_list, image_label = read_dataset('./dataset/infer') columns_list = ('image', 'label') dataset_infer = ds.GeneratorDataset(DatasetGenerator(image_list, image_label), column_names=list(columns_list), num_parallel_workers=1) dataset_infer = infer_transform(dataset_infer, columns_list, resize) # 读取数据进行推理 for i, image in enumerate(dataset_infer.create_dict_iterator(output_numpy=True)): image = image["image"] image = ms.Tensor(image) prob = model.predict(image) label = np.argmax(prob.asnumpy(), axis=1) predict = dataset_analyse.index2label[int(label)] output = {int(label): predict} print(output) show_result(img=image_list[i], result=output, out_file=image_list[i]) # 推理过程完成后,在推理文件夹下可以找到图片的推理结果,可以看出预测结果是Doberman,与期望结果相同,验证了模型的准确性。 # #  # ## 总结 # # 本案例完成了一个ViT模型在ImageNet数据上进行训练,验证和推理的过程,其中,对关键的ViT模型结构和原理作了讲解。通过学习本案例,理解源码可以帮助用户掌握Multi-Head Attention,TransformerEncoder,pos_embedding等关键概念,如果要详细理解ViT的模型原理,建议基于源码更深层次的详细阅读,可以参考vision套件: # # <https://gitee.com/mindspore/vision/tree/r0.1/examples/classification/vit>。 # # ## 引用 # # [1] Dosovitskiy, Alexey, et al. \"An image is worth 16x16 words: Transformers for image recognition at scale.\" arXiv preprint arXiv:2010.11929 (2020). # # [2] Vaswani, Ashish, et al. \"Attention is all you need.\"Advances in Neural Information Processing Systems. (2017).
此 Pull Request 无法自动合并
尝试通过 WebIDE 解决冲突
怎样手动合并此 Pull Request
git checkout master
git pull https://gitee.com/mindspore/docs.git r1.9
git push origin master
评论
5
提交
145
文件
100+
检查
代码问题
0
批量操作
展开设置
折叠设置
审查
Code Owner
审查人员
liangchenghui
liangchenghui
chenhaozhe
c_34
TommyLike
TommyLike
Hanshize
Hanshize
TingWang
gemini524
mindspore-ci-bot
mindspore_ci
Rudy_tan
rudy_tan
luojianing
luojianing1
未设置
最少人数
0
测试
liangchenghui
liangchenghui
chenhaozhe
c_34
TommyLike
TommyLike
Hanshize
Hanshize
TingWang
gemini524
mindspore-ci-bot
mindspore_ci
Rudy_tan
rudy_tan
luojianing
luojianing1
未设置
最少人数
0
优先级
不指定
严重
主要
次要
不重要
标签
mindspore-cla/yes
stat/needs-squash
OCCM/pr-merged
关联 Issue
I5USM4
Vision Transformer图像分类代码执行问题
I5UYYF
Vision Transformer图像分类调用dataset_analyse.index2label[int(label)]产生KeyError: 'wnid2class_name'
Pull Request 合并后将关闭上述关联 Issue
里程碑
未关联里程碑
参与者
(3)
Cherry-pick 提交
Cherry-pick 可以将
特定提交(Commit)
从某个分支挑选并应用到另一个分支,实现快速集成特定更改,而无需合并整个分支。
请选择应用 Cherry-pick 提交 (Commit) 的目标分支
新建分支
当前账号不存在 Fork 仓库,建议 cherry-pick 到 Fork 仓库。
Fork 仓库
提交列表
Commit SHA
Commit Message
基于 Cherry-pick 后的分支发起 Pull Request
取消
Cherry-pick
1
https://gitee.com/mindspore/docs.git
git@gitee.com:mindspore/docs.git
mindspore
docs
docs
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册