diff --git a/tutorials/source_zh_cn/cv/vit.ipynb b/tutorials/source_zh_cn/cv/vit.ipynb index cf349d7c4127086b0b0aecab28124462d6c23291..c966eec3031533dcae264eb7b1660b2fc695b063 100644 --- a/tutorials/source_zh_cn/cv/vit.ipynb +++ b/tutorials/source_zh_cn/cv/vit.ipynb @@ -447,7 +447,7 @@ "\n", "1. 通过将输入图像在每个channel上划分成大小为16 x 16的patch,这一步是通过卷积操作来完成的,当然也可以人工进行划分,但卷积操作也可以达到目的同时还可以进行一次额外的数据处理;**例如一幅输入224 x 224的图像,首先经过卷积处理得到14 x 14个patch,那么每一个patch的大小就是16 x 16。**\n", "\n", - "2. 再将每一个patch的矩阵拉伸成为一个一维向量,从而获得了近似词向量堆叠的效果。**上一步得到的一系列大小为16 x 16的patch就转换为长度为196的向量。**\n", + "2. 再将每一个patch的矩阵拉伸成为一个一维向量,从而获得了近似词向量堆叠的效果。**上一步得到的一系列大小为16 x 16的patch就转换为长度为256的向量。**\n", "\n", "这是图像输入网络经过的第一步处理。具体Patch Embedding的代码如下所示:" ]