diff --git a/tutorials/source_zh_cn/cv/vit.ipynb b/tutorials/source_zh_cn/cv/vit.ipynb
index cf349d7c4127086b0b0aecab28124462d6c23291..c966eec3031533dcae264eb7b1660b2fc695b063 100644
--- a/tutorials/source_zh_cn/cv/vit.ipynb
+++ b/tutorials/source_zh_cn/cv/vit.ipynb
@@ -447,7 +447,7 @@
     "\n",
     "1. 通过将输入图像在每个channel上划分成大小为16 x 16的patch，这一步是通过卷积操作来完成的，当然也可以人工进行划分，但卷积操作也可以达到目的同时还可以进行一次额外的数据处理；**例如一幅输入224 x 224的图像，首先经过卷积处理得到14 x 14个patch，那么每一个patch的大小就是16 x 16。**\n",
     "\n",
-    "2. 再将每一个patch的矩阵拉伸成为一个一维向量，从而获得了近似词向量堆叠的效果。**上一步得到的一系列大小为16 x 16的patch就转换为长度为196的向量。**\n",
+    "2. 再将每一个patch的矩阵拉伸成为一个一维向量，从而获得了近似词向量堆叠的效果。**上一步得到的一系列大小为16 x 16的patch就转换为长度为256的向量。**\n",
     "\n",
     "这是图像输入网络经过的第一步处理。具体Patch Embedding的代码如下所示："
    ]