From 1d0ac1e1c25762f3f7eaef197ec00ceb2153cd68 Mon Sep 17 00:00:00 2001
From: gitee_code_template <daiweihua2@huawei.com>
Date: Thu, 28 Mar 2024 14:07:33 +0800
Subject: [PATCH 1/3] =?UTF-8?q?=E6=96=B0=E5=A2=9Ecogvlm=E6=A8=A1=E5=9E=8B?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 PyTorch/built-in/foundation/CogVLM/README.md  | 190 +++++
 .../foundation/CogVLM/cogvlm_utils/dataset.py |  62 ++
 .../foundation/CogVLM/cogvlm_utils/env_npu.sh |  55 ++
 .../CogVLM/cogvlm_utils/eva_clip_model.py     | 175 ++++
 .../cogvlm_utils/eval_cogvlm_base_224.sh      |  53 ++
 .../cogvlm_utils/evaluate_cogvlm_demo.py      | 223 +++++
 .../cogvlm_utils/finetune_cogvlm_base_224.sh  |  57 ++
 .../cogvlm_utils/finetune_cogvlm_demo.py      | 281 ++++++
 .../CogVLM/cogvlm_utils/inference.py          |  33 +
 .../CogVLM/cogvlm_utils/layernorm.py          |  40 +
 .../foundation/CogVLM/cogvlm_utils/mixin.py   | 275 ++++++
 .../CogVLM/cogvlm_utils/modeling_cogvlm.py    | 806 ++++++++++++++++++
 .../CogVLM/cogvlm_utils/rotary_embeddings.py  | 136 +++
 .../cogvlm_utils/transformer_defaults.py      | 270 ++++++
 .../cogvlm_utils/triton_rotary_embeddings.py  |  15 +
 .../foundation/CogVLM/cogvlm_utils/visual.py  | 169 ++++
 .../CogVLM/fintune_cogvlm_change.sh           | 133 +++
 .../CogVLM/inference_cogvlm_change.sh         | 108 +++
 .../foundation/CogVLM/requirements.txt        |  24 +
 19 files changed, 3105 insertions(+)
 create mode 100644 PyTorch/built-in/foundation/CogVLM/README.md
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/dataset.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/env_npu.sh
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eva_clip_model.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eval_cogvlm_base_224.sh
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/evaluate_cogvlm_demo.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_demo.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/inference.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/layernorm.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/mixin.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/modeling_cogvlm.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/rotary_embeddings.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/transformer_defaults.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/triton_rotary_embeddings.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/cogvlm_utils/visual.py
 create mode 100644 PyTorch/built-in/foundation/CogVLM/fintune_cogvlm_change.sh
 create mode 100644 PyTorch/built-in/foundation/CogVLM/inference_cogvlm_change.sh
 create mode 100644 PyTorch/built-in/foundation/CogVLM/requirements.txt

diff --git a/PyTorch/built-in/foundation/CogVLM/README.md b/PyTorch/built-in/foundation/CogVLM/README.md
new file mode 100644
index 0000000000..e570216f16
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/README.md
@@ -0,0 +1,190 @@
+# CogVLM for Pytorch
+# 目录
+
+- [简介](#简介)
+  - [模型介绍](#模型介绍)
+  - [支持任务列表](#支持任务列表)
+  - [代码实现](#代码实现)
+- [CogVLM](#CogVLM)
+  - [准备训练环境](#准备训练环境)
+  - [准备数据集](#准备数据集)
+  - [快速开始](#快速开始)
+  - [微调任务](#微调任务)
+  - [推理任务](#推理任务)
+- [公网地址变更说明](#公网地址变更说明)
+- [变更说明](#变更说明)
+- [FAQ](#FAQ)
+
+
+
+# 简介
+## 模型介绍
+CogVLM is VISUAL EXPERT FOR LARGE LANGUAGE 是一个多模态视觉-文本模型，它强调“视觉优先”，使用11B参数建模图像特征，多于文本的7B参数量。该模型包含ViT编码器、MLP适配器、预训练大语言模型和视觉专家模块，通过深度整合语言和视觉信息，提升了跨模态任务的性能。在多个基准测试中，CogVLM展现出领先或次领先的性能，显示出其在视觉理解研究和工业应用中的巨大潜力。
+
+官方仓：https://github.com/THUDM/CogVLM
+
+## 支持任务列表
+本仓已支持以下模型任务类型。
+
+| 模型         | 模型大小 | 任务类型       | 是否支持  |
+|------------|------|------------| ------------ |
+| CogVLM |   base-224   | 微调         | ✅   |
+
+## 代码实现
+- 参考实现
+  ```
+  CogVLM仓: https://github.com/THUDM/CogVLM
+  commit id: eb2367f54b95da2ee64f996305ab1baa45df7479
+  ```
+- 适配昇腾 AI 处理器的实现：
+  ```
+  url=https://gitee.com/ascend/ModelZoo-PyTorch.git
+  code_path=PyTorch/built-in/foundation/CogVLM
+  ```
+  
+# CogVLM
+
+## 准备训练环境
+### 安装昇腾环境
+
+请参考昇腾社区中《[Pytorch框架训练环境准备](https://www.hiascend.com/document/detail/zh/ModelZoo/pytorchframework/ptes)》文档搭建昇腾环境，本仓已支持表1中软件版本。
+
+**表 1**  昇腾软件版本支持表
+
+|        软件类型        |   支持版本   |
+|:------------------:|:--------:|
+| FrameworkPTAdapter | 6.0.RC1  |
+|        CANN        | 8.0.RC1  |
+|      昇腾NPU固件       | 24.1.RC1 |
+|      昇腾NPU驱动       | 24.1.RC1 |
+
+### 安装模型环境
+
+**表 2**  三方库版本支持表
+
+|    三方库    |  支持版本  |
+|:---------:|:------:|
+|  PyTorch  | 2.1.0  |
+
+在模型根目录下执行以下命令，安装模型对应PyTorch版本需要的依赖, 需要先安装PTA包。
+```shell
+pip install -r requirements.txt
+```
+### 准备数据集
+
+1) 微调数据集:
+训练与评估所使用的数据集为Captcha Images dataset(验证码数据集)[下载](https://www.kaggle.com/datasets/aadhavvignesh/captcha-images)，该数据集是官网提供的一个预训练数据集。
+
+2) label数据:
+数据的label信息为图像的文件名。
+
+下载完后文件夹结构如下所示：
+
+```text
+archive
+├── 004rVO6G09.jpg
+├── 00949IT0LT.jpg
+├── 00bAQwhAZU.jpg
+├── 01S19jY65H.jpg
+...
+```
+#### 微调数据预处理
+数据下载完成后，需要对其进行数据集划分，train/validation/test的划分比例为80/5/15，在官网utils/split_dataset.py中指定源文件路径，如下面代码中的"archive"路径：
+```python
+all_files = find_all_files('archive')
+```
+执行数据划分操作，如下命令：
+```shell[dataset.py](cogvlm_utils%2Fdataset.py)
+python utils/split_dataset.py
+```
+划分后会生成train/valid/test文件，文件中分别包含划分后的图像。
+```text
+archive_split
+├── test
+├── train
+├── valid
+```
+
+### 获取预训练权重
+
+1) 下载并安装en_core_web_sm-any-py3-none-any.whl[下载](https://huggingface.co/spacy/en_core_web_sm/tree/main)，
+en_core_web_sm是spaCy 自然语言处理（NLP）工具库中的一种语言模型，专为英语设计。
+
+2) 官方提供微调权重cogvlm-base-224[下载](https://huggingface.co/THUDM/CogVLM/tree/main)。
+
+3) 分词器权重[下载](https://huggingface.co/lmsys/vicuna-7b-v1.5/tree/main)。
+
+## 快速开始
+
+### 微调任务
+主要提供基于Captcha Images数据集微调的8卡训练脚本。
+#### 模型适配
+
+1) 模型文件替换:
+
+替换fintune_cogvlm_change.sh脚本中开头三个路径，model_zoo路径、Cogvlm路径和sat路径为实际路径，执行脚本进行替换，如下命令：
+```shell
+sh fintune_cogvlm_change.sh
+```
+#### 执行微调
+1) finetune_demo/finetune_cogvlm_base_224.sh文件夹下，修改文件中微调权重路径、分词器权重路径和数据集路径（train_data和valid_data）为实际路径。
+
+2) 执行训练，如下命令：
+```
+cd finetune_demo
+bash finetune_cogvlm_base_224.sh
+```
+
+#### 训练结果
+
+##### 精度
+
+基于Captcha Images数据集训练800步、1600步和2000步验证下游任务，由于模型本身有确定性问题，因此下游任务在评估数据上略有波动：
+
+|    芯片    |  800  | 1600   | 2000  | 
+|:--------:|:-----:|--------|-------|
+|   GPU    |  95%  | 96.25% | 97.5% |
+| Atlas A2 |  95%  | 95%    | 97.5% | 
+
+##### 性能
+
+
+|    芯片    | 卡数 | samples/s | batch_size | AMP_Type | Torch_Version |
+|:--------:| :----: |:---------:|:----------:|:--------:| :-----------: |
+|   GPU    |   8p   |    340    |     4      |  bfp16   |      2.1      |
+| Atlas A2 |   8p   |    280    |     4      |   bfp16   |      2.1      |
+
+#### 微调后推理
+1) finetune_demo/eval_cogvlm_base_224.sh文件夹下，修改文件中微调后权重路径、分词器路径和数据集路径(test_data)为实际路径。
+2) 执行推理，如下命令：
+```shell
+bash eval_cogvlm_base_224.sh
+```
+
+### 推理任务
+该处的推理为官方hf权重的推理方式，与微调后推理方式略有区别，用户可根据实际情况判断是否执行。
+#### 推理前准备
+1) 预训练权重cogvlm-base-224-hf[下载](https://huggingface.co/THUDM/cogvlm-base-224-hf)。
+
+2) 替换inference_cogvlm_change.sh脚本中model_zoo路径、Cogvlm路径和HF权重路径为实际路径,执行脚本进行替换。
+```shell
+sh inference_cogvlm_change.sh
+```
+3) finetune_demo/inference.py文件夹下，并根据实际路径修改推理权重路径、分词器权重路径和图片路径
+#### 启动推理
+```shell
+cd finetune_demo
+source ./env_npu.sh
+python inference.py
+```
+
+# 公网地址变更说明
+暂无。
+
+# 变更说明
+暂无。
+
+
+# FAQ
+
+暂无。
\ No newline at end of file
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/dataset.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/dataset.py
new file mode 100644
index 0000000000..d3e3a9107e
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/dataset.py
@@ -0,0 +1,62 @@
+import os
+import logging
+import random
+import logging
+import jsonlines
+from io import BytesIO
+from PIL import Image
+from torch.utils.data import Dataset
+from sat.helpers import print_rank0
+
+def find_all_files(path, suffix=".jpg"):
+    target_files = []
+    for cur_dir, _, files in os.walk(path, followlinks=True):
+        for f in files:
+            if f.endswith(suffix):
+                target_files.append(os.path.join(cur_dir, f))
+    print_rank0(f'find {len(target_files)} files...')
+    return target_files
+
+class ItemDataset(Dataset):
+    def __init__(self, image_processor, text_processor, args, data_dirs, cross_image_processor=None, **kwargs):
+        super().__init__()
+        self.data = self.load_data(data_dirs)
+        self.image_processor, self.text_processor, self.cross_image_processor = image_processor, text_processor, cross_image_processor
+    
+    def process_img(self, img):
+        img_dict = {'vision': self.image_processor(img)}
+        if self.cross_image_processor:
+            img_dict.update({'cross': self.cross_image_processor(img)})
+        return img_dict
+    
+    def process_text(self, answer, prompt):
+        return self.text_processor(answer, prompt)
+    
+    def load_data(self, data_dir):
+        all_files = find_all_files(data_dir, suffix=".jpg")
+        all_files.sort()
+        print_rank0(f"find {len(all_files)} samples in all...")
+        return all_files
+    
+    def __len__(self):
+        return len(self.data)
+
+    def __getitem__(self, index):
+        data = self.data[index]
+        # img
+        try:
+            img = Image.open(data).convert('RGB')
+        except Exception as e:
+            print_rank0(e, level=logging.WARNING)
+            return {}
+        img_dict = self.process_img(img)
+        # text
+        label = data.split('/')[-1].split('.')[0]
+        uni_key = label
+        text_dict = self.process_text(label, "CAPTCHA:")
+        if text_dict is None:
+            print_rank0(f"Process text failed. Please check the max_target_length & max_source_length.\n The data is {data}", level=logging.WARNING)
+            return {}
+        # other attr
+        ret = {**img_dict, **text_dict, "question_id": uni_key}
+        return ret
\ No newline at end of file
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/env_npu.sh b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/env_npu.sh
new file mode 100644
index 0000000000..11c1a42d04
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/env_npu.sh
@@ -0,0 +1,55 @@
+#!/bin/bash
+CANN_INSTALL_PATH_CONF='/etc/Ascend/ascend_cann_install.info'
+
+if [ -f $CANN_INSTALL_PATH_CONF ]; then
+    CANN_INSTALL_PATH=$(cat $CANN_INSTALL_PATH_CONF | grep Install_Path | cut -d "=" -f 2)
+else
+    CANN_INSTALL_PATH="/usr/local/Ascend"
+fi
+
+if [ -d ${CANN_INSTALL_PATH}/ascend-toolkit/latest ]; then
+    source ${CANN_INSTALL_PATH}/ascend-toolkit/set_env.sh
+else
+    source ${CANN_INSTALL_PATH}/nnae/set_env.sh
+fi
+
+count=$(npu-smi info -l | grep -c "NPU ID")
+
+for ((i=0; i<${count}; i=i+1))
+do
+    msnpureport -g error -d ${i}
+done
+
+#将Host日志输出到串口,0-关闭/1-开启
+export ASCEND_SLOG_PRINT_TO_STDOUT=0
+#设置默认日志级别,0-debug/1-info/2-warning/3-error
+export ASCEND_GLOBAL_LOG_LEVEL=3
+#设置Event日志开启标志,0-关闭/1-开启
+export ASCEND_GLOBAL_EVENT_ENABLE=0
+#设置是否开启taskque,0-关闭/1-开启
+export TASK_QUEUE_ENABLE=1
+#设置是否开启combined标志,0-关闭/1-开启
+export COMBINED_ENABLE=1
+#HCCL白名单开关,1-关闭/0-开启
+export HCCL_WHITELIST_DISABLE=1
+export HCCL_IF_IP=$(hostname -I |awk '{print $1}')
+export HCCL_CONNECT_TIMEOUT=1200
+
+path_lib=$(python3 -c """
+import sys
+import re
+result=''
+for index in range(len(sys.path)):
+    match_sit = re.search('-packages', sys.path[index])
+    if match_sit is not None:
+        match_lib = re.search('lib', sys.path[index])
+
+        if match_lib is not None:
+            end=match_lib.span()[1]
+            result += sys.path[index][0:end] + ':'
+
+        result+=sys.path[index] + '/torch/lib:'
+print(result)"""
+)
+
+echo ${path_lib}
\ No newline at end of file
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eva_clip_model.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eva_clip_model.py
new file mode 100644
index 0000000000..e6f5eabee7
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eva_clip_model.py
@@ -0,0 +1,175 @@
+import torch
+import torch_npu
+import torch.nn.functional as F
+from sat.model.base_model import BaseModel
+from sat.model.mixins import BaseMixin
+from sat.model.official.vit_model import ViTProperty, ImagePatchEmbeddingMixin, InterpolatedPositionEmbeddingMixin, gelu
+from sat import mpu
+
+
+class FlashSelfAttention(torch.nn.Module):
+    """Implement the scaled dot product attention with softmax.
+    Arguments
+    ---------
+        softmax_scale: The temperature to use for the softmax attention.
+                      (default: 1/sqrt(d_keys) where d_keys is computed at
+                      runtime)
+        attention_dropout: The dropout rate to apply to the attention
+                           (default: 0.0)
+    """
+
+    def __init__(self, causal=False, softmax_scale=1., attention_dropout=0.):
+        super().__init__()
+        self.causal = causal
+        self.softmax_scale = softmax_scale
+        self.dropout_p = attention_dropout
+
+    def forward(self, q, k, v, n, attention_mask, pse):
+
+        if self.causal:
+            output = torch_npu.npu_fusion_attention(
+                q, k, v, n, "BSND",# SBH
+                pse=pse,
+                padding_mask=None,
+                atten_mask=attention_mask,
+                scale=self.softmax_scale,
+                pre_tockens=65536,  # seq_len
+                next_tockens=65536,  # 0
+                keep_prob=1 - self.dropout_p,
+            )[0]
+            return output
+
+
+class IdentityMixin(BaseMixin):
+    def __init__(self):
+        super().__init__()
+
+    def final_forward(self, logits, **kwargs):
+        return logits[:, 1:]
+
+
+def memory_efficient_attention_min(query, key, value, dropout):
+    """
+    xformers.ops.memory_efficient_attention 小算子实现
+    """
+    scale = 1.0 / query.shape[-1] ** 0.5
+    query = query * scale
+    query = query.transpose(1, 2)
+    key = key.transpose(1, 2)
+    value = value.transpose(1, 2)
+    attn = query @ key.transpose(-2, -1)
+    attn = attn.softmax(-1)
+    attn = F.dropout(attn, dropout)
+    attn = attn @ value
+    return attn.transpose(1, 2)
+
+
+class XAttn(BaseMixin):
+    def __init__(self, head_dim):
+        super().__init__()
+        self.scale = head_dim ** -0.5
+        self.core_attention_flash = FlashSelfAttention(causal=True, softmax_scale=self.scale, attention_dropout=0.)
+
+    def attention_fn(self, query_layer, key_layer, value_layer, attention_mask,
+                       attention_dropout=None, log_attention_weights=None, scaling_attention_score=True, **kwargs):
+        dropout_p = 0. # xformers does not support dropout for eva hidden size
+
+        query_layer = query_layer.permute(0, 2, 1, 3)   # B, num_heads, N, C -> B, N, num_heads, C
+        key_layer = key_layer.permute(0, 2, 1, 3)
+        value_layer = value_layer.permute(0, 2, 1, 3)
+        out = self.core_attention_flash(query_layer, key_layer, value_layer, query_layer.shape[2], None, None)
+        return out
+    
+    def attention_forward(self, hidden_states, mask, **kw_args):
+        self = self.transformer.layers[kw_args['layer_id']].attention
+        attention_fn = self.hooks['attention_fn']
+
+        mixed_raw_layer = self.query_key_value(hidden_states)
+
+        B, N, C = hidden_states.shape
+        mixed_raw_layer = mixed_raw_layer.reshape(B, N, 3, self.num_attention_heads_per_partition, -1).permute(2, 0, 3, 1, 4)   # 3, B, num_heads, N, C
+        query_layer, key_layer, value_layer = mixed_raw_layer[0], mixed_raw_layer[1], mixed_raw_layer[2]
+
+        dropout_fn = self.attention_dropout if self.training else None
+
+        context_layer = attention_fn(query_layer, key_layer, value_layer, mask, dropout_fn, **kw_args)
+
+        context_layer = context_layer.contiguous().view(B, N, -1)
+        output = self.dense(context_layer)
+
+        if self.training:
+            output = self.output_dropout(output)
+        return output
+
+
+class NewLayerForward(BaseMixin):
+    def __init__(self):
+        super().__init__()
+
+    def layer_forward(self, hidden_states, mask, *args, **kw_args):
+        '''
+            hidden_states: [batch, seq_len, hidden_size]
+            mask: [(1, 1), seq_len, seq_len]
+        '''
+        self = self.transformer.layers[kw_args['layer_id']]
+        
+        attention_input = hidden_states
+
+        # Self attention.
+        attention_output = self.input_layernorm(self.attention(attention_input, mask, **kw_args))
+
+        # DropPath for attention
+        if self.training and self.drop_path > 0.:
+            if mpu.get_cuda_rng_tracker is not None:
+                # drop_path must use model parallel rng tracker
+                # the tracker is initialized as seed of `seed + model_parallel_rank`
+                # deepspeed act-ckpt record the model parallel tracker states
+                with mpu.get_cuda_rng_tracker().fork():
+                    # drop_path percentage 0, others 1/(1-p)
+                    random_tensor = (1-self.drop_path
+                                    + torch.rand((attention_output.shape[0],), dtype=attention_output.dtype, device=attention_output.device)).floor_() / (1-self.drop_path)
+                    attention_output = random_tensor.view(-1, 1, 1) * attention_output
+        
+        # Residual connection.
+        hidden_states = attention_input + attention_output
+        mlp_input = hidden_states
+
+        # MLP.
+        mlp_output = self.post_attention_layernorm(self.mlp(mlp_input, **kw_args))
+
+        # DropPath for mlp
+        if self.training and self.drop_path > 0.:
+            if mpu.get_cuda_rng_tracker is not None:
+                with mpu.get_cuda_rng_tracker().fork():
+                    random_tensor = (1-self.drop_path
+                                    + torch.rand((mlp_output.shape[0],), dtype=mlp_output.dtype, device=mlp_output.device)).floor_() / (1-self.drop_path)
+                    mlp_output = random_tensor.view(-1, 1, 1) * mlp_output
+
+        # Second residual connection.
+        output = mlp_input + mlp_output
+
+        return output
+
+class EVA2CLIPModel(BaseModel):
+    def __init__(self, args, transformer=None, parallel_output=True, **kwargs):
+        property = ViTProperty(args.image_size, args.patch_size, args.pre_len, args.post_len)
+        args.max_sequence_length = property.pre_len + property.num_patches + property.post_len
+        if 'activation_func' not in kwargs:
+            kwargs['activation_func'] = gelu
+        super().__init__(args, transformer=transformer, parallel_output=parallel_output, **kwargs)
+        self.transformer.property = property
+        self.add_mixin("patch_embedding", ImagePatchEmbeddingMixin(args.in_channels, args.hidden_size, property))
+        self.add_mixin("pos_embedding", InterpolatedPositionEmbeddingMixin())
+        self.add_mixin("final", IdentityMixin())
+        self.add_mixin("newpost", NewLayerForward())
+        self.add_mixin("xattn", XAttn(args.hidden_size // args.num_attention_heads))
+
+    @classmethod
+    def add_model_specific_args(cls, parser):
+        group = parser.add_argument_group('EVA2CLIP', 'EVA2CLIP Configurations')
+        group.add_argument('--image-size', nargs='+', type=int, default=[224, 224])
+        group.add_argument('--pre-len', type=int, default=1) # [cls] by default
+        group.add_argument('--post-len', type=int, default=0) # empty by default, but sometimes with special tokens, such as [det] in yolos.
+        group.add_argument('--in-channels', type=int, default=3)
+        group.add_argument('--patch-size', type=int, default=16)
+        return parser
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eval_cogvlm_base_224.sh b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eval_cogvlm_base_224.sh
new file mode 100644
index 0000000000..ec07f64abd
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/eval_cogvlm_base_224.sh
@@ -0,0 +1,53 @@
+#! /bin/bash
+# export PATH=/usr/local/cuda/bin:$PATH
+# export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
+
+NUM_GPUS_PER_WORKER=8
+MP_SIZE=1
+
+script_path=$(realpath $0)
+script_dir=$(dirname $script_path)
+main_dir=$(dirname $script_dir)
+MODEL_TYPE="微调后权重路径"
+VERSION="base"
+MODEL_ARGS="--from_pretrained $MODEL_TYPE \
+    --max_length 490 \
+    --local_tokenizer 分词器权重路径 \
+    --version $VERSION"
+# Tips: If training models of resolution 244, you can set --max_length smaller 
+
+
+OPTIONS_SAT="SAT_HOME=~/.sat_models"
+OPTIONS_NCCL="NCCL_DEBUG=info NCCL_IB_DISABLE=0 NCCL_NET_GDR_LEVEL=2 LOCAL_WORLD_SIZE=$NUM_GPUS_PER_WORKER"
+HOST_FILE_PATH="hostfile"
+
+test_data="./archive_split/test"
+
+gpt_options=" \
+       --experiment-name finetune-$MODEL_TYPE \
+       --model-parallel-size ${MP_SIZE} \
+       --mode finetune \
+       --train-iters 0 \
+       --resume-dataloader \
+       $MODEL_ARGS \
+       --train-data ${train_data} \
+       --test-data ${test_data} \
+       --distributed-backend nccl \
+       --lr-decay-style cosine \
+       --warmup .02 \
+       --checkpoint-activations \
+       --strict-eval \
+       --eval-batch-size 1 \
+       --split 1. \
+       --deepspeed_config test_config_bf16.json \
+       --skip-init \
+       --seed 1234
+"
+
+              
+
+run_cmd="${OPTIONS_NCCL} ${OPTIONS_SAT} deepspeed --master_port 18888 --hostfile ${HOST_FILE_PATH} evaluate_cogvlm_demo.py ${gpt_options}"
+echo ${run_cmd}
+eval ${run_cmd}
+
+set +x
\ No newline at end of file
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/evaluate_cogvlm_demo.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/evaluate_cogvlm_demo.py
new file mode 100644
index 0000000000..0966c6e149
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/evaluate_cogvlm_demo.py
@@ -0,0 +1,223 @@
+import os
+import torch
+import torch_npu
+from torch_npu.contrib import transfer_to_npu
+import argparse
+from functools import partial
+import sys
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from sat import mpu, get_args, get_tokenizer
+from sat.training.deepspeed_training import training_main
+from sat.helpers import print_rank0
+from utils.models import FineTuneTestCogVLMModel
+from utils.utils import llama2_text_processor, llama2_text_processor_inference, get_image_processor
+
+
+def data_collator(examples):
+    examples = [ex for ex in examples if len(ex) > 0] # drop {}
+    for example in examples:
+        for k in example:
+            if isinstance(example[k], list):
+                example[k] = torch.tensor(example[k])
+            elif isinstance(example[k], np.ndarray):
+                example[k] = torch.from_numpy(example[k])
+    img_args = {}
+    tmp_example = examples[0]
+    for k in tmp_example['vision']:
+        if type(tmp_example['vision'][k]) is torch.Tensor:
+            img_args['vision_'+k] = torch.cat([example['vision'][k] for example in examples])
+        else:
+            img_args['vision_'+k] = example['vision'][k]
+    for example in examples:
+        example.pop('vision')
+        if 'cross' in example:
+            example.pop('cross')
+
+    model_args = {}
+    tmp_example = examples[0]
+    for k in tmp_example:
+        if type(tmp_example[k]) is torch.Tensor:
+            model_args[k] = torch.cat([example[k] for example in examples])
+        else:
+            model_args[k] = tmp_example[k]
+    model_args.update(img_args)
+    return model_args
+
+from collections import defaultdict
+
+def broadcast_auto(data_dict):
+    type2list = defaultdict(list)
+    other = []
+    for k in data_dict:
+        if type(data_dict[k]) is torch.Tensor:
+            type2list[data_dict[k].dtype].append(k)
+        else:
+            other.append(k)
+    new_data = {}
+    for k in type2list:
+        new_data.update(mpu.broadcast_data(type2list[k], data_dict, k))
+    for k in other:
+        new_data[k] = data_dict[k]
+    return new_data
+
+def get_batch(data_iterator, args, timers):
+    # Broadcast data.
+    timers('data loader').start()
+    if data_iterator is not None:
+        data = next(data_iterator)
+    else:
+        data = None
+    timers('data loader').stop()
+    data_b = broadcast_auto(data)
+    for k in data_b:
+        if type(data_b[k]) is torch.Tensor and data_b[k].dtype is not torch.int32 and data_b[k].dtype is not torch.long:
+            if args.fp16:
+                data_b[k] = data_b[k].half()
+            elif args.bf16:
+                data_b[k] = data_b[k].bfloat16()
+    return data_b
+
+from torch.nn import CrossEntropyLoss
+import numpy as np
+
+from sat.model.mixins import CachedAutoregressiveMixin
+from sat.generation.autoregressive_sampling import filling_sequence
+from sat.generation.sampling_strategies import BaseStrategy, BeamSearchStrategy
+
+
+def chat(model, tokenizer, tokens,
+         max_length: int = 1800, num_beams=5, top_p=0.95, top_k=0, temperature=0.8, **kwargs):
+    inputs = tokens.to(model.parameters().__next__().device)[0]
+    seq = torch.cat(
+        [inputs, torch.tensor([-1] * (max_length - len(inputs)), device=inputs.device)], dim=0
+    )
+    strategy = BaseStrategy(temperature=temperature, top_p=0.4, top_k=1, end_tokens=[tokenizer.eos_token_id])
+    # strategy = BeamSearchStrategy(temperature=temperature, top_p=top_p, top_k=top_k, end_tokens=[tokenizer.eos_token_id],
+    #                               num_beams=num_beams, consider_end=True)
+    get_func = llama2_text_processor_inference.get_func(None, None, image_rope_mask=kwargs['image_rope_mask'])
+    output = filling_sequence(
+        model, seq,
+        batch_size=1,
+        strategy=strategy,
+        get_masks_and_position_ids=get_func,
+        **kwargs
+    )[0]  # drop memory
+
+    return output
+
+
+def forward_step_eval(data_iterator, model, args, timers):
+    def compute_metrics(eval_preds):
+        preds, labels, device = eval_preds
+        preds = preds.unsqueeze(0)
+        if isinstance(preds, tuple):
+            preds = preds[0]
+        decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)
+        if args.ignore_pad_token_for_loss:
+            # Replace -100 in the labels as we can't decode them.
+            labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
+        decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
+
+        score_dict = {
+            "acc": [],
+            "acc_w/o_case": [],
+        }
+        for pred, label in zip(decoded_preds, decoded_labels):
+            if args.rank == 0:
+                print('pred', pred, 'label', label, flush=True)
+            if pred == label:
+                score_dict['acc'].append(1.)
+            else:
+                score_dict['acc'].append(0.)
+            if pred.lower() == label.lower():
+                score_dict['acc_w/o_case'].append(1.)
+            else:
+                score_dict['acc_w/o_case'].append(0.)
+            
+
+        for k, v in score_dict.items():
+            score_dict[k] = float(np.mean(v))
+        return score_dict
+
+    # Get the batch.
+    timers('batch generator').start()
+    data_b = get_batch(
+        data_iterator, args, timers)
+    timers('batch generator').stop()
+
+    context_len = int(data_b['context_length'][0])
+    tokens = data_b['input_ids'][:, :context_len]
+    data_b['vision_expert_mask'] = data_b['vision_expert_mask'][:, :context_len]
+    data_b['image_embed_mask'] = data_b['image_embed_mask'][:, :context_len]
+    data_b['image_rope_mask'] = data_b['image_rope_mask'][:, :context_len]
+
+    data_b.pop('input_ids')
+    data_b.pop('attention_mask')
+    data_b.pop('position_ids')
+    labels = data_b.pop('labels')
+    qid = data_b.pop('question_id')
+
+    model.add_mixin('auto-regressive', CachedAutoregressiveMixin())
+    outputs = chat(model, tokenizer, tokens, **data_b)[0][context_len:]
+    # print(outputs)
+    model.del_mixin('auto-regressive')
+
+    return torch.tensor(0, device=outputs.device), {k: torch.tensor(v, device=outputs.device) for k, v in
+                                                    compute_metrics(
+                                                        (outputs.cpu(), labels.cpu(), outputs.device)).items()}
+
+
+from torch.nn import CrossEntropyLoss
+def forward_step(data_iterator, model, args, timers):
+    """Forward step."""
+
+    # Get the batch.
+    timers('batch generator').start()
+    data_b = get_batch(
+        data_iterator, args, timers)
+    labels = data_b.pop('labels')
+    timers('batch generator').stop()
+    logits = model(**data_b)[0]
+    lm_logits = logits.to(torch.float32)
+    # Shift so that tokens < n predict n
+    shift_labels = labels[..., 1:].contiguous()
+    shift_logits = lm_logits[..., -1-shift_labels.size(-1):-1, :].contiguous()
+    # Flatten the tokens
+    loss_fct = CrossEntropyLoss(ignore_index=-100)
+    loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
+    loss = loss.to(torch.float32)
+
+    return loss, {'loss': loss}
+
+from utils.utils import ItemDataset
+def create_dataset_function(image_processor, text_processor, path, args):
+    dataset = ItemDataset(image_processor, text_processor, args, path)
+    return dataset
+
+if __name__ == '__main__':
+    torch.npu.set_compile_mode(jit_compile=False)
+    torch.npu.config.allow_internal_format = False
+    py_parser = argparse.ArgumentParser(add_help=False)
+    py_parser.add_argument('--max_length', type=int)
+    py_parser.add_argument('--ignore_pad_token_for_loss', action='store_false')
+    py_parser.add_argument("--version", type=str, default="chat", help='version to interact with')
+    py_parser.add_argument("--from_pretrained", type=str, default="cogvlm-chat", help='pretrained ckpt')
+    py_parser.add_argument("--local_tokenizer", type=str, default="lmsys/vicuna-7b-v1.5", help='tokenizer path')
+    py_parser.add_argument("--vit_checkpoint_activations", action='store_true')
+    py_parser = FineTuneTestCogVLMModel.add_model_specific_args(py_parser)
+    known, args_list = py_parser.parse_known_args()
+    args = get_args(args_list)
+    args = argparse.Namespace(**vars(args), **vars(known))
+    if args.use_qlora:
+        args.device = 'cpu'
+
+    model, args = FineTuneTestCogVLMModel.from_pretrained(args.from_pretrained, args, overwrite_args={'model_parallel_size': args.model_parallel_size} if args.model_parallel_size != 1 else {})
+    if args.use_qlora and torch.cuda.is_available():
+        model = model.to('cuda')
+    from utils.utils import llama2_tokenizer
+    tokenizer = llama2_tokenizer(args.local_tokenizer, signal_type=args.version)
+    image_processor = get_image_processor(args.eva_args["image_size"][0])
+    text_processor = llama2_text_processor(tokenizer, args.max_length, args.image_length)
+
+    training_main(args, model_cls=model, forward_step_function=forward_step, create_dataset_function=partial(create_dataset_function, image_processor, text_processor), collate_fn=data_collator, forward_step_eval=forward_step_eval)
\ No newline at end of file
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh
new file mode 100644
index 0000000000..22b3e9911f
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh
@@ -0,0 +1,57 @@
+#! /bin/bash
+source ./env_npu.sh
+# export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
+
+NUM_GPUS_PER_WORKER=8
+MP_SIZE=1
+
+script_path=$(realpath $0)
+script_dir=$(dirname $script_path)
+main_dir=$(dirname $script_dir)
+MODEL_TYPE="预训练权重路径"
+VERSION="base"
+MODEL_ARGS="--from_pretrained $MODEL_TYPE \
+    --max_length 512 \
+    --local_tokenizer 分词器权重路径 \
+    --version $VERSION"
+# Tips: If training models of resolution 244, you can set --max_length smaller 
+
+OPTIONS_SAT="SAT_HOME=~/.sat_models"
+OPTIONS_NCCL="NCCL_DEBUG=info NCCL_IB_DISABLE=0 NCCL_NET_GDR_LEVEL=2 LOCAL_WORLD_SIZE=$NUM_GPUS_PER_WORKER"
+HOST_FILE_PATH="hostfile"
+
+# 用户需要指定train_data和valid_data为实际路径
+train_data="../archive_split/train"
+valid_data="../archive_split/valid"
+
+gpt_options=" \
+       --experiment-name finetune-$MODEL_TYPE \
+       --model-parallel-size ${MP_SIZE} \
+       --mode finetune \
+       --train-iters 1000 \
+       --resume-dataloader \
+       $MODEL_ARGS \
+       --train-data ${train_data} \
+       --valid-data ${valid_data} \
+       --distributed-backend nccl \
+       --lr-decay-style cosine \
+       --warmup .02 \
+       --log-interval 1 \
+       --save-interval 2000 \
+       --eval-interval 200 \
+       --save "./checkpoints" \
+       --eval-iters 10 \
+       --eval-batch-size 1 \
+       --split 1. \
+       --deepspeed_config test_config_bf16.json \
+       --skip-init \
+       --seed 1234 
+"
+
+              
+
+run_cmd="${OPTIONS_NCCL} ${OPTIONS_SAT} deepspeed --master_port 16666 --hostfile ${HOST_FILE_PATH} finetune_cogvlm_demo.py ${gpt_options}"
+echo ${run_cmd}
+eval ${run_cmd}
+
+set +x
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_demo.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_demo.py
new file mode 100644
index 0000000000..a7cc6f2fba
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_demo.py
@@ -0,0 +1,281 @@
+import os
+import torch
+import torch_npu
+from torch_npu.contrib import transfer_to_npu
+import argparse
+from functools import partial
+import sys
+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+
+from sat import mpu, get_args, get_tokenizer
+from sat.training.deepspeed_training import training_main
+from sat.helpers import print_rank0
+from utils.models import FineTuneTrainCogVLMModel
+from utils.utils import llama2_text_processor, llama2_text_processor_inference, get_image_processor
+
+import random
+
+
+def seed_all(seed=1234, mode=False):
+      random.seed(seed)
+      os.environ['PYTHONHASHSEED'] = str(seed)
+      np.random.seed(seed)
+      torch.manual_seed(seed)
+      torch.use_deterministic_algorithms(mode)
+      torch_npu.npu.manual_seed_all(seed)
+      torch_npu.npu.manual_seed(seed)
+
+
+def disable_untrainable_params(self):
+    total_trainable = 0
+    enable = [('mlp', 'vit')]
+    if self.args.use_ptuning:
+        enable.extend(['ptuning'])
+    if self.args.use_lora or self.args.use_qlora:
+        enable.extend(['matrix_A', 'matrix_B'])
+    for n, p in self.named_parameters():
+        flag = False
+        for e in enable:
+            if type(e) is tuple:
+                if e[0].lower() in n.lower() and e[1].lower() in n.lower() and 55 > int(n[:n.find('.mlp')].split('.')[-1]) > 45:
+                    flag = True
+                    break
+            else:
+                if e.lower() in n.lower():
+                    flag = True
+                    break
+        if not flag:
+            p.requires_grad_(False)
+        else:
+            total_trainable += p.numel()
+            print_rank0(n)
+    print_rank0("***** Total trainable parameters: "+str(total_trainable)+" *****")
+
+FineTuneTrainCogVLMModel.disable_untrainable_params = disable_untrainable_params
+
+def data_collator(examples):
+    examples = [ex for ex in examples if len(ex) > 0] # drop {}
+    for example in examples:
+        for k in example:
+            if isinstance(example[k], list):
+                example[k] = torch.tensor(example[k])
+            elif isinstance(example[k], np.ndarray):
+                example[k] = torch.from_numpy(example[k])
+    img_args = {}
+    tmp_example = examples[0]
+    for k in tmp_example['vision']:
+        if type(tmp_example['vision'][k]) is torch.Tensor:
+            img_args['vision_'+k] = torch.cat([example['vision'][k] for example in examples])
+        else:
+            img_args['vision_'+k] = example['vision'][k]
+    for example in examples:
+        example.pop('vision')
+        if 'cross' in example:
+            example.pop('cross')
+
+    model_args = {}
+    tmp_example = examples[0]
+    for k in tmp_example:
+        if type(tmp_example[k]) is torch.Tensor:
+            model_args[k] = torch.cat([example[k] for example in examples])
+        else:
+            model_args[k] = tmp_example[k]
+    model_args.update(img_args)
+    return model_args
+
+from collections import defaultdict
+
+def broadcast_auto(data_dict):
+    type2list = defaultdict(list)
+    other = []
+    for k in data_dict:
+        if type(data_dict[k]) is torch.Tensor:
+            type2list[data_dict[k].dtype].append(k)
+        else:
+            other.append(k)
+    new_data = {}
+    for k in type2list:
+        new_data.update(mpu.broadcast_data(type2list[k], data_dict, k))
+    for k in other:
+        new_data[k] = data_dict[k]
+    return new_data
+
+def get_batch(data_iterator, args, timers):
+    # Broadcast data.
+    timers('data loader').start()
+    if data_iterator is not None:
+        data = next(data_iterator)
+    else:
+        data = None
+    timers('data loader').stop()
+    for k in data:
+        if type(data[k]) is torch.Tensor:
+            data[k] = data[k].to(torch.cuda.current_device())
+        if type(data[k]) is torch.Tensor and data[k].dtype is not torch.int32 and data[k].dtype is not torch.long:
+            if args.fp16:
+                data[k] = data[k].half()
+            elif args.bf16:
+                data[k] = data[k].bfloat16()
+    return data
+
+from torch.nn import CrossEntropyLoss
+import numpy as np
+
+from sat.model.mixins import CachedAutoregressiveMixin
+from sat.generation.autoregressive_sampling import filling_sequence
+from sat.generation.sampling_strategies import BaseStrategy, BeamSearchStrategy
+
+
+def chat(model, tokenizer, tokens,
+         max_length: int = 1800, num_beams=5, top_p=0.95, top_k=0, temperature=0.8, **kwargs):
+    inputs = tokens.to(model.parameters().__next__().device)[0]
+    seq = torch.cat(
+        [inputs, torch.tensor([-1] * (max_length - len(inputs)), device=inputs.device)], dim=0
+    )
+    strategy = BaseStrategy(temperature=temperature, top_p=0.4, top_k=1, end_tokens=[tokenizer.eos_token_id])
+    # strategy = BeamSearchStrategy(temperature=temperature, top_p=top_p, top_k=top_k, end_tokens=[tokenizer.eos_token_id],
+    #                               num_beams=num_beams, consider_end=True)
+    get_func = llama2_text_processor_inference.get_func(None, None, image_rope_mask=kwargs['image_rope_mask'])
+    output = filling_sequence(
+        model, seq,
+        batch_size=1,
+        strategy=strategy,
+        get_masks_and_position_ids=get_func,
+        **kwargs
+    )[0]  # drop memory
+
+    return output
+
+
+def forward_step_eval(data_iterator, model, args, timers):
+    def compute_metrics(eval_preds):
+        preds, labels, device = eval_preds
+        preds = preds.unsqueeze(0)
+        if isinstance(preds, tuple):
+            preds = preds[0]
+        decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=True)
+        if args.ignore_pad_token_for_loss:
+            # Replace -100 in the labels as we can't decode them.
+            labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
+        decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
+
+        score_dict = {
+            "acc": [],
+            "acc_w/o_case": [],
+        }
+        for pred, label in zip(decoded_preds, decoded_labels):
+            if args.rank == 0:
+                print('pred', pred, 'label', label, flush=True)
+            if pred == label:
+                score_dict['acc'].append(1.)
+            else:
+                score_dict['acc'].append(0.)
+            if pred.lower() == label.lower():
+                score_dict['acc_w/o_case'].append(1.)
+            else:
+                score_dict['acc_w/o_case'].append(0.)
+            
+
+        for k, v in score_dict.items():
+            score_dict[k] = float(np.mean(v))
+        return score_dict
+
+    # Get the batch.
+    timers('batch generator').start()
+    data_b = get_batch(
+        data_iterator, args, timers)
+    timers('batch generator').stop()
+
+    context_len = int(data_b['context_length'][0])
+    tokens = data_b['input_ids'][:, :context_len]
+    data_b['vision_expert_mask'] = data_b['vision_expert_mask'][:, :context_len]
+    data_b['image_embed_mask'] = data_b['image_embed_mask'][:, :context_len]
+    data_b['image_rope_mask'] = data_b['image_rope_mask'][:, :context_len]
+
+    data_b.pop('input_ids')
+    data_b.pop('attention_mask')
+    data_b.pop('position_ids')
+    labels = data_b.pop('labels')
+    qid = data_b.pop('question_id')
+
+    model.add_mixin('auto-regressive', CachedAutoregressiveMixin())
+    outputs = chat(model, tokenizer, tokens, **data_b)[0][context_len:]
+    model.del_mixin('auto-regressive')
+
+    return torch.tensor(0, device=outputs.device), {k: torch.tensor(v, device=outputs.device) for k, v in
+                                                    compute_metrics(
+                                                        (outputs.cpu(), labels.cpu(), outputs.device)).items()}
+
+
+from torch.nn import CrossEntropyLoss
+def forward_step(data_iterator, model, args, timers):
+    """Forward step."""
+
+    # Get the batch.
+    timers('batch generator').start()
+    data_b = get_batch(
+        data_iterator, args, timers)
+    labels = data_b.pop('labels')
+    timers('batch generator').stop()
+    logits = model(**data_b)[0]
+    lm_logits = logits.to(torch.float32)
+    # Shift so that tokens < n predict n
+    shift_labels = labels[..., 1:].contiguous()
+    shift_logits = lm_logits[..., -1-shift_labels.size(-1):-1, :].contiguous()
+    # Flatten the tokens
+    loss_fct = CrossEntropyLoss(ignore_index=-100)
+    loss = loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))
+    loss = loss.to(torch.float32)
+
+    return loss, {'loss': loss}
+
+from utils.utils import ItemDataset
+def create_dataset_function(image_processor, text_processor, path, args):
+    dataset = ItemDataset(image_processor, text_processor, args, path)
+    return dataset
+
+from sat.model.finetune.lora2 import LoraMixin
+from sat.model.finetune.prompt_tuning import PTuningV2Mixin
+
+if __name__ == '__main__':
+    torch.npu.set_compile_mode(jit_compile=False)
+    torch.npu.config.allow_internal_format = False
+    # seed_all(seed=1234, mode=True) # 根据实际情况开启确定性计算
+    py_parser = argparse.ArgumentParser(add_help=False)
+    py_parser.add_argument('--max_length', type=int)
+    py_parser.add_argument('--ignore_pad_token_for_loss', action='store_false')
+    py_parser.add_argument("--version", type=str, default="chat_old", help='version to interact with')
+    py_parser.add_argument("--from_pretrained", type=str, default="cogvlm-chat", help='pretrained ckpt')
+    py_parser.add_argument("--local_tokenizer", type=str, default="lmsys/vicuna-7b-v1.5", help='tokenizer path')
+    py_parser.add_argument("--vit_checkpoint_activations", action='store_true')
+    py_parser = FineTuneTrainCogVLMModel.add_model_specific_args(py_parser)
+    known, args_list = py_parser.parse_known_args()
+    args = get_args(args_list)
+    args = argparse.Namespace(**vars(args), **vars(known))
+    if args.use_qlora:
+        args.device = 'cpu'
+
+    model, args = FineTuneTrainCogVLMModel.from_pretrained(args.from_pretrained, args, overwrite_args={'model_parallel_size': args.model_parallel_size} if args.model_parallel_size != 1 else {})
+    if args.use_ptuning:
+        model.add_mixin("ptuning", PTuningV2Mixin(args.num_layers, args.hidden_size // args.num_attention_heads, args.num_attention_heads, args.pre_seq_len))
+    if args.use_lora:
+        model.add_mixin("lora", LoraMixin(args.num_layers, args.lora_rank, layer_range=args.layer_range), reinit=True)
+        model.get_mixin("eva").vit_model.add_mixin("lora", LoraMixin(args.eva_args['num_layers'], args.lora_rank, layer_range=args.layer_range), reinit=True)
+    elif args.use_qlora:
+        model.add_mixin("lora", LoraMixin(args.num_layers, args.lora_rank, layer_range=args.layer_range, qlora=True), reinit=True)
+        
+    if args.use_qlora and torch.cuda.is_available():
+        model = model.to('cuda')
+    from utils.utils import llama2_tokenizer
+    tokenizer = llama2_tokenizer(args.local_tokenizer, signal_type=args.version)
+    image_processor = get_image_processor(args.eva_args["image_size"][0])
+    text_processor = llama2_text_processor(tokenizer, args.max_length, args.image_length)
+
+    model = training_main(args, model_cls=model, forward_step_function=forward_step, create_dataset_function=partial(create_dataset_function, image_processor, text_processor), collate_fn=data_collator, forward_step_eval=forward_step_eval)
+    if args.use_lora:
+        model.get_mixin("lora").merge_lora()
+        model.get_mixin("eva").vit_model.get_mixin("lora").merge_lora()
+        args.use_lora = False
+        args.save = "checkpoints/merged_lora_cogvlm{}".format(args.eva_args["image_size"][0])
+        from sat.training.model_io import save_checkpoint
+        save_checkpoint(1, model, None, None, args)
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/inference.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/inference.py
new file mode 100644
index 0000000000..2814f37dae
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/inference.py
@@ -0,0 +1,33 @@
+import torch
+import torch_npu
+from torch_npu.contrib import transfer_to_npu
+import requests
+from PIL import Image
+from transformers import AutoModelForCausalLM, LlamaTokenizer
+
+tokenizer = LlamaTokenizer.from_pretrained('分词器权重路径')
+model = AutoModelForCausalLM.from_pretrained(
+    '推理权重路径',
+    torch_dtype=torch.bfloat16,
+    low_cpu_mem_usage=True,
+    trust_remote_code=True
+).to('cuda').eval()
+
+image = Image.open("图片路径").convert('RGB')
+inputs = model.build_conversation_input_ids(tokenizer, query='', images=[image])
+inputs = {
+    'input_ids': inputs['input_ids'].unsqueeze(0).to('cuda'),
+    'token_type_ids': inputs['token_type_ids'].unsqueeze(0).to('cuda'),
+    'attention_mask': inputs['attention_mask'].unsqueeze(0).to('cuda'),
+    'images': [[inputs['images'][0].to('cuda').to(torch.bfloat16)]],
+}
+
+gen_kwargs = {"max_length": 2048, "do_sample": False}
+
+with torch.no_grad():
+    print("Begin inference")
+    outputs = model.generate(**inputs, **gen_kwargs)
+    print("Inference End")
+    outputs = outputs[:, inputs['input_ids'].shape[1]:]
+    response = tokenizer.decode(outputs[0])
+    print("\nCog:", response)
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/layernorm.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/layernorm.py
new file mode 100644
index 0000000000..e5e773a23e
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/layernorm.py
@@ -0,0 +1,40 @@
+try:
+    from apex.normalization.fused_layer_norm import FusedLayerNorm
+    class LayerNorm(FusedLayerNorm):
+        def __init__(self, *args, pb_relax=False, **kwargs):
+            super().__init__(*args, **kwargs)
+            self.pb_relax = pb_relax
+
+        def forward(self, x):
+            if not self.pb_relax:
+                return super().forward(x)
+            return super().forward(x / (x.abs().max().detach() / 8))
+except ModuleNotFoundError:
+    from sat.helpers import print_rank0
+    print_rank0('Please install apex to use fused_layer_norm, fall back to torch.nn.LayerNorm', level='DEBUG')
+    import torch
+    class LayerNorm(torch.nn.LayerNorm):
+        def __init__(self, *args, **kwargs):
+            super().__init__(*args, **kwargs)
+        def forward(self, x):
+            # if cpu and float16, calculate in float32 for both x and weight, bias.
+            if str(x.device) == 'cpu' and x.dtype in[torch.float16, torch.bfloat16]:
+                return torch.nn.functional.layer_norm(x.float(), self.normalized_shape, self.weight.float(), self.bias.float()).to(x.dtype)
+            else:
+                return super().forward(x)    
+
+import torch
+import torch_npu
+import torch.nn as nn
+class RMSNorm(nn.Module):
+    def __init__(self, hidden_size, eps=1e-6):
+        """
+        RMSNorm is equivalent to T5LayerNorm
+        """
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(hidden_size))
+        self.variance_epsilon = eps
+
+    def forward(self, hidden_states):
+        input_dtype = hidden_states.dtype
+        return torch_npu.npu_rms_norm(hidden_states.to(torch.float32), self.weight.to(torch.float32), epsilon=self.variance_epsilon)[0].to(input_dtype)
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/mixin.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/mixin.py
new file mode 100644
index 0000000000..1b39d7cf36
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/mixin.py
@@ -0,0 +1,275 @@
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from sat.transformer_defaults import attention_fn_default
+from sat.model.base_model import BaseMixin, non_conflict
+from sat.mpu.layers import ColumnParallelLinear, RowParallelLinear
+from sat.mpu.utils import split_tensor_along_last_dim
+from sat import mpu
+from sat.model.position_embedding.triton_rotary_embeddings  import apply_rotary_pos_emb_index_bhs
+
+
+class LlamaVisionExpertFCMixin(BaseMixin):
+    def __init__(self, in_features, hidden_features, num_layers=32, num_vision_layers=0, vision_layer_range=None,
+                 params_dtype=torch.float, device=torch.device('cpu')):
+        super().__init__()
+
+        self.num_layers = num_layers
+        self.num_vision_layers = num_vision_layers
+        if vision_layer_range is None:
+            vision_layer_range = [i for i in range(min(num_vision_layers, num_layers))]
+        self.vision_layer_range = vision_layer_range
+        self.gate_proj = nn.ModuleList([ColumnParallelLinear(
+            in_features,
+            hidden_features,
+            gather_output=False,
+            init_method=None,
+            bias=False,
+            params_dtype=params_dtype,
+            module=self,
+            name="dense_h_to_4h_gate",
+            skip_init=True,
+            device=device
+        ) for i in range(num_layers)])
+        # Trainable vision expert parameters
+        vision_dense_h_to_4h_list = []
+        vision_dense_4h_to_h_list = []
+        gate_proj_list = []
+
+
+        for i in vision_layer_range:
+            vision_dense_h_to_4h = ColumnParallelLinear(
+                in_features,
+                hidden_features,
+                gather_output=False,
+                init_method=None,
+                bias=False,
+                params_dtype=params_dtype,
+                module=self,
+                name="vision_dense_h_to_4h",
+                skip_init=True,
+                device=device
+            )
+
+            # Project back to h.
+            vision_dense_4h_to_h = RowParallelLinear(
+                hidden_features,
+                in_features,
+                input_is_parallel=True,
+                init_method=None,
+                bias=False,
+                params_dtype=params_dtype,
+                module=self,
+                name="vision_dense_4h_to_h",
+                skip_init=True,
+                device=device
+            )
+
+            gate_proj = ColumnParallelLinear(
+                in_features,
+                hidden_features,
+                gather_output=False,
+                init_method=None,
+                bias=False,
+                params_dtype=params_dtype,
+                module=self,
+                name="vision_gate_proj",
+                skip_init=True,
+                device=device
+            )
+
+            vision_dense_h_to_4h_list.append(vision_dense_h_to_4h)
+            vision_dense_4h_to_h_list.append(vision_dense_4h_to_h)
+            gate_proj_list.append(gate_proj)
+
+        self.vision_dense_h_to_4h_list = nn.ModuleDict([
+            (str(layer_id), vision_dense_h_to_4h)
+            for layer_id, vision_dense_h_to_4h in zip(vision_layer_range, vision_dense_h_to_4h_list)
+        ])
+        self.vision_dense_4h_to_h_list = nn.ModuleDict([
+            (str(layer_id), vision_dense_4h_to_h)
+            for layer_id, vision_dense_4h_to_h in zip(vision_layer_range, vision_dense_4h_to_h_list)
+        ])
+        self.vision_gate_proj = nn.ModuleDict([
+            (str(layer_id), gate_proj)
+            for layer_id, gate_proj in zip(vision_layer_range, gate_proj_list)
+        ])
+
+    def mlp_forward(self, hidden_states, **kw_args):
+        mixin_self = self
+        self = self.transformer.layers[kw_args['layer_id']].mlp
+        if "vision_expert_mask" in kw_args:
+            vision_expert_mask = kw_args['vision_expert_mask']
+        else:
+            vision_expert_mask = None
+
+        layer_id_key = str(int(kw_args['layer_id']))
+
+        if kw_args['layer_id'] in mixin_self.vision_layer_range and (vision_expert_mask is not None) and vision_expert_mask.any():
+            vision_dense_h_to_4h = mixin_self.vision_dense_h_to_4h_list[layer_id_key]
+            vision_dense_4h_to_h = mixin_self.vision_dense_4h_to_h_list[layer_id_key]
+            vision_gate_proj = mixin_self.vision_gate_proj[layer_id_key]
+            output = torch.empty(hidden_states.shape, dtype=hidden_states.dtype, device=hidden_states.device)
+
+            language_hidden_state = hidden_states[~vision_expert_mask.bool()]
+            language_intermediate_parallel = self.activation_func(mixin_self.gate_proj[kw_args['layer_id']](language_hidden_state)) * self.dense_h_to_4h(language_hidden_state)
+            output[~vision_expert_mask.bool()] = self.dense_4h_to_h(language_intermediate_parallel)  # language_output
+
+            vision_hidden_state = hidden_states[vision_expert_mask.bool()]
+            vision_intermediate_parallel = vision_dense_h_to_4h(vision_hidden_state)
+            gate_output = vision_gate_proj(vision_hidden_state)
+
+            vision_intermediate_parallel *= self.activation_func(gate_output)
+            output[vision_expert_mask.bool()] = vision_dense_4h_to_h(vision_intermediate_parallel)  # vision_output
+        else:
+            intermediate_parallel = self.activation_func(mixin_self.gate_proj[kw_args['layer_id']](hidden_states)) * self.dense_h_to_4h(hidden_states)
+            output = self.dense_4h_to_h(intermediate_parallel)
+
+        return output.contiguous()
+
+    def copy_param(self):
+        with torch.no_grad():
+            for i in self.vision_layer_range:
+                self.vision_gate_proj[str(i)].weight.data.copy_(self.gate_proj[i].weight.data)
+                self.vision_dense_4h_to_h_list[str(i)].weight.data.copy_(self.transformer.layers[i].mlp.dense_4h_to_h.weight.data)
+                self.vision_dense_h_to_4h_list[str(i)].weight.data.copy_(self.transformer.layers[i].mlp.dense_h_to_4h.weight.data)
+
+from sat.mpu import get_model_parallel_world_size
+from sat.mpu.utils import divide
+from sat.model.position_embedding.triton_rotary_embeddings import FastRotaryEmbedding
+
+class LlamaVisionExpertAttnMixin(BaseMixin):
+    def __init__(self, hidden_size, num_heads, num_layers=28, num_vision_layers=0, use_vision_expert=True, vision_layer_range=None,
+                 params_dtype=torch.float, device=torch.device('cpu')):
+        super().__init__()
+
+        world_size = get_model_parallel_world_size()
+        self.hidden_size = hidden_size
+        self.num_attention_heads = num_heads
+        self.hidden_size_per_attention_head = divide(hidden_size, num_heads)
+        self.num_attention_heads_per_partition = divide(num_heads, world_size)
+        self.inner_hidden_size = num_heads * self.hidden_size_per_attention_head
+
+        self.rotary_emb = FastRotaryEmbedding(
+             hidden_size // num_heads
+         )
+
+        self.num_vision_layers = num_vision_layers
+        self.num_layers = num_layers
+        if vision_layer_range is None:
+            vision_layer_range = [i for i in range(min(num_vision_layers, num_layers))]
+        self.vision_layer_range = vision_layer_range
+
+        self.use_vision_expert = use_vision_expert
+        # Trainable vision expert parameters
+
+        if self.use_vision_expert:
+            vision_query_key_value_list = []
+            vision_dense_list = []
+            for i in vision_layer_range:
+                vision_query_key_value = ColumnParallelLinear(
+                    hidden_size,
+                    3 * hidden_size,
+                    stride=3,
+                    gather_output=False,
+                    init_method=None,
+                    bias=False,
+                    params_dtype=params_dtype,
+                    module=self,
+                    name="vision_query_key_value",
+                    skip_init=True,
+                    device=device
+                )
+
+                vision_dense = RowParallelLinear(
+                    self.inner_hidden_size,
+                    hidden_size,
+                    input_is_parallel=True,
+                    init_method=None,
+                    bias=False,
+                    params_dtype=params_dtype,
+                    module=self,
+                    name="vision_dense",
+                    skip_init=True,
+                    device=device,
+                    final_bias=False
+                )
+
+                vision_query_key_value_list.append(vision_query_key_value)
+                vision_dense_list.append(vision_dense)
+
+            self.vision_query_key_value_list = nn.ModuleDict([
+                (str(layer_id), vision_query_key_value)
+                for layer_id, vision_query_key_value in zip(vision_layer_range, vision_query_key_value_list)
+            ])
+            self.vision_dense_list = nn.ModuleDict([
+                (str(layer_id), vision_dense)
+                for layer_id, vision_dense in zip(vision_layer_range, vision_dense_list)
+            ])
+
+    def attention_forward(self, hidden_states, mask, **kw_args):
+        mixin_self = self
+        self = self.transformer.layers[kw_args['layer_id']].attention
+        attention_fn = attention_fn_default
+        if 'attention_fn' in self.hooks:
+            attention_fn = self.hooks['attention_fn']
+        if "vision_expert_mask" in kw_args:
+            vision_expert_mask = kw_args['vision_expert_mask']
+        else:
+            vision_expert_mask = None
+
+        layer_id_key = str(int(kw_args['layer_id']))
+        if mixin_self.use_vision_expert and kw_args['layer_id'] in mixin_self.vision_layer_range and (
+                vision_expert_mask is not None) and vision_expert_mask.any():
+            shape = list(hidden_states.shape)
+            parallel_size = mpu.get_model_parallel_world_size()
+            shape[-1] = shape[-1] * 3 // parallel_size
+            vision_query_key_value = mixin_self.vision_query_key_value_list[layer_id_key]
+            mixed_raw_layer = torch.empty(shape, dtype=hidden_states.dtype, device=hidden_states.device)
+            language_hidden_states = hidden_states[~vision_expert_mask.bool()]
+            vision_hidden_states = hidden_states[vision_expert_mask.bool()]
+            mixed_raw_layer[~vision_expert_mask.bool()] = self.query_key_value(
+                language_hidden_states)  # language_mixed_raw_layer
+            mixed_raw_layer[vision_expert_mask.bool()] = vision_query_key_value(
+                vision_hidden_states)  # vision_mixed_raw_layer
+        else:
+            mixed_raw_layer = self.query_key_value(hidden_states)
+
+        (mixed_query_layer,
+            mixed_key_layer,
+            mixed_value_layer) = split_tensor_along_last_dim(mixed_raw_layer, 3)
+
+        dropout_fn = self.attention_dropout if self.training else None
+
+        query_layer = self._transpose_for_scores(mixed_query_layer)
+        key_layer = self._transpose_for_scores(mixed_key_layer)
+        value_layer = self._transpose_for_scores(mixed_value_layer)
+        cos, sin = mixin_self.rotary_emb(value_layer, seq_len=kw_args['position_ids'].max()+1)
+        query_layer, key_layer = apply_rotary_pos_emb_index_bhs(query_layer, key_layer, cos, sin, kw_args['position_ids'])
+
+        context_layer = attention_fn(query_layer, key_layer, value_layer, mask, dropout_fn, **kw_args)
+
+        context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
+        new_context_layer_shape = context_layer.size()[:-2] + (self.hidden_size_per_partition,)
+        context_layer = context_layer.view(*new_context_layer_shape)
+
+        if mixin_self.use_vision_expert and kw_args['layer_id'] in mixin_self.vision_layer_range and (
+                vision_expert_mask is not None) and vision_expert_mask.any():
+            vision_dense = mixin_self.vision_dense_list[layer_id_key]
+            parallel_size = mpu.get_model_parallel_world_size()
+            target_shape = context_layer.shape[:-1] + (context_layer.shape[-1] * parallel_size,)
+            output = torch.empty(target_shape, dtype=hidden_states.dtype, device=hidden_states.device)
+            output[~vision_expert_mask.bool()] = self.dense(context_layer[~vision_expert_mask.bool()])  # language
+            output[vision_expert_mask.bool()] = vision_dense(context_layer[vision_expert_mask.bool()])  # vision
+        else:
+            output = self.dense(context_layer)
+
+        if self.training:
+            output = self.output_dropout(output)
+        return output.contiguous()
+
+    def copy_param(self):
+        with torch.no_grad():
+            for i in self.vision_layer_range:
+                self.vision_query_key_value_list[str(i)].weight.data.copy_(self.transformer.layers[i].attention.query_key_value.weight.data)
+                self.vision_dense_list[str(i)].weight.data.copy_(self.transformer.layers[i].attention.dense.weight.data)
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/modeling_cogvlm.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/modeling_cogvlm.py
new file mode 100644
index 0000000000..4eaa77b6c3
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/modeling_cogvlm.py
@@ -0,0 +1,806 @@
+"""largely copy from llama and adapt for cogvlm"""
+import warnings
+from typing import TYPE_CHECKING, Optional, Tuple, List, Union, Literal, Dict, Any
+
+import math
+import torch
+from torch import nn
+from torch.nn import CrossEntropyLoss
+from torchvision import transforms
+from einops import rearrange
+
+from transformers import PreTrainedModel, PreTrainedTokenizer
+from transformers.utils.logging import get_logger
+from transformers.activations import ACT2FN
+from transformers.modeling_outputs import BaseModelOutputWithPast, CausalLMOutputWithPast
+
+from .configuration_cogvlm import CogVLMConfig
+from .rotary_embeddings import RotaryEmbedding  as FastRotaryEmbedding, apply_rotary_pos_emb_index_bhs
+from .visual import EVA2CLIPModel
+
+if TYPE_CHECKING:
+    from transformers.utils import ModelOutput
+
+logger = get_logger(__name__)
+
+LANGUAGE_TOKEN_TYPE = 0
+VISION_TOKEN_TYPE = 1
+
+
+# Copied from transformers.models.bart.modeling_bart._make_causal_mask
+def _make_causal_mask(
+        input_ids_shape: torch.Size, dtype: torch.dtype, device: torch.device, past_key_values_length: int = 0
+):
+    """
+    Make causal mask used for bi-directional self-attention.
+    """
+    bsz, tgt_len = input_ids_shape
+    mask = torch.full((tgt_len, tgt_len), torch.finfo(dtype).min, device=device)
+    mask_cond = torch.arange(mask.size(-1), device=device)
+    mask.masked_fill_(mask_cond < (mask_cond + 1).view(mask.size(-1), 1), 0)
+    mask = mask.to(dtype)
+
+    if past_key_values_length > 0:
+        mask = torch.cat([torch.zeros(tgt_len, past_key_values_length, dtype=dtype, device=device), mask], dim=-1)
+    return mask[None, None, :, :].expand(bsz, 1, tgt_len, tgt_len + past_key_values_length)
+
+
+# Copied from transformers.models.bart.modeling_bart._expand_mask
+def _expand_mask(mask: torch.Tensor, dtype: torch.dtype, tgt_len: Optional[int] = None):
+    """
+    Expands attention_mask from `[bsz, seq_len]` to `[bsz, 1, tgt_seq_len, src_seq_len]`.
+    """
+    bsz, src_len = mask.size()
+    tgt_len = tgt_len if tgt_len is not None else src_len
+
+    expanded_mask = mask[:, None, None, :].expand(bsz, 1, tgt_len, src_len).to(dtype)
+
+    inverted_mask = 1.0 - expanded_mask
+
+    return inverted_mask.masked_fill(inverted_mask.to(torch.bool), torch.finfo(dtype).min)
+
+
+class RMSNorm(nn.Module):
+    def __init__(self, hidden_size, eps=1e-6):
+        super().__init__()
+        self.weight = nn.Parameter(torch.ones(hidden_size))
+        self.variance_epsilon = eps
+
+    def forward(self, hidden_states):
+        input_dtype = hidden_states.dtype
+        hidden_states = hidden_states.to(torch.float32)
+        variance = hidden_states.pow(2).mean(-1, keepdim=True)
+        hidden_states = hidden_states * torch.rsqrt(variance + self.variance_epsilon)
+        return (self.weight * hidden_states).to(input_dtype)
+
+
+class MLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.intermediate_size = config.intermediate_size
+        self.gate_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.up_proj = nn.Linear(self.hidden_size, self.intermediate_size, bias=False)
+        self.down_proj = nn.Linear(self.intermediate_size, self.hidden_size, bias=False)
+        self.act_fn = ACT2FN[config.hidden_act]
+
+    def forward(self, x):
+        down_proj = self.down_proj(self.act_fn(self.gate_proj(x)) * self.up_proj(x))
+        return down_proj
+
+
+def get_expert_mask(token_type_ids: "torch.LongTensor(B, L)") -> "[torch.BoolTensor(B, L), torch.BoolTensor(B, L)]":
+    vision_token_mask = torch.zeros_like(token_type_ids, dtype=torch.bool)
+    vision_token_mask[:, :-1] = (token_type_ids[:, :-1] == VISION_TOKEN_TYPE) & (token_type_ids[:, 1:] == VISION_TOKEN_TYPE)
+    language_token_mask = ~vision_token_mask
+    return vision_token_mask, language_token_mask
+
+
+def scaled_dot_product_attention(query, key, value, attn_mask=None, dropout_p=0.0, is_causal=False, scale=None) -> torch.Tensor:
+    # Efficient implementation equivalent to the following:
+    L, S = query.size(-2), key.size(-2)
+    scale_factor = 1 / math.sqrt(query.size(-1)) if scale is None else scale
+    attn_bias = torch.zeros(L, S, dtype=query.dtype).to(query.device)
+    if is_causal:
+        assert attn_mask is None
+        temp_mask = torch.ones(L, S, dtype=torch.bool).tril(diagonal=0).to(query.device)
+        attn_bias.masked_fill_(temp_mask.logical_not(), float("-inf"))
+        attn_bias.to(query.dtype)
+
+    if attn_mask is not None:
+        if attn_mask.dtype == torch.bool:
+            attn_mask.masked_fill_(attn_mask.logical_not(), float("-inf"))
+        else:
+            attn_bias += attn_mask
+    attn_weight = query @ key.transpose(-2, -1) * scale_factor
+    attn_weight += attn_bias
+    attn_weight = torch.softmax(attn_weight, dim=-1)
+    attn_weight = torch.dropout(attn_weight, dropout_p, train=True)
+    return attn_weight @ value
+
+
+class VisionExpertMLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.language_mlp = MLP(config)
+        self.vision_mlp = MLP(config)
+
+    def forward(self, hidden_states: "torch.Tensor(B, L, D)", token_type_ids: "torch.LongTensor(B, L)"):
+        output = torch.empty(hidden_states.shape, dtype=hidden_states.dtype, device=hidden_states.device)
+        vision_token_mask, language_token_mask = get_expert_mask(token_type_ids)
+        output[vision_token_mask] = self.vision_mlp(hidden_states[vision_token_mask])
+        output[language_token_mask] = self.language_mlp(hidden_states[language_token_mask])
+        return output
+
+
+def attention_fn(
+        query_layer: "torch.tensor(B, H, L, HD)",
+        key_layer: "torch.tensor(B, H, L, HD)",
+        value_layer: "torch.tensor(B, H, L, HD)",
+        attention_mask: "torch.tensor(B, H, L, HD)",
+        *,
+        scaling_attention_score: bool = True,
+        attention_dropout: nn.Module = None
+):
+    attention_mask_bool = (attention_mask == 0)
+    is_low_triangle = (attention_mask_bool == torch.ones_like(attention_mask_bool, dtype=torch.float).tril()).all()
+    is_full = (attention_mask_bool > 0).all()
+    if not (int(torch.__version__.split('.')[0]) >= 2):
+        warnings.warn("It's recommended to use torch2.0 or higher.")
+    if int(torch.__version__.split('.')[0]) >= 2 and scaling_attention_score and (is_full or is_low_triangle):
+        dropout_p = 0. if attention_dropout is None or not attention_dropout.training else attention_dropout.p
+        scaled_dot_product_attention(query_layer, key_layer, value_layer, dropout_p=dropout_p, is_causal=not is_full)
+    else:
+        if scaling_attention_score:
+            query_layer = query_layer / math.sqrt(query_layer.shape[-1])
+        attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2))
+        attention_scores = attention_scores + attention_mask
+        attention_scores = nn.functional.softmax(attention_scores, dim=-1, dtype=torch.float32).to(query_layer.dtype)
+        if attention_dropout is not None:
+            attention_scores = attention_dropout(attention_scores)
+        context_layer = torch.matmul(attention_scores, value_layer)
+        return context_layer
+
+class VisionExpertAttention(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = self.hidden_size // self.num_heads
+        self.max_position_embeddings = config.max_position_embeddings
+
+        self.rotary_emb = FastRotaryEmbedding(self.hidden_size // self.num_heads)
+        self.vision_expert_query_key_value = nn.Linear(self.hidden_size, self.hidden_size * 3, bias=False)
+        self.vision_expert_dense = nn.Linear(self.hidden_size, self.hidden_size, bias=False)
+        self.language_expert_query_key_value = nn.Linear(self.hidden_size, self.hidden_size * 3, bias=False)
+        self.language_expert_dense = nn.Linear(self.hidden_size, self.hidden_size, bias=False)
+
+    def _transpose_for_scores(self, tensor):
+        """Transpose a 3D tensor [B, L, H*HD] into a 4D tensor with size [B H L HD]."""
+        new_tensor_shape = tensor.size()[:-1] + (self.num_heads, self.head_dim)
+        tensor = tensor.view(*new_tensor_shape)
+        return tensor.permute(0, 2, 1, 3)
+
+    def forward(
+            self,
+            hidden_states: torch.Tensor,
+            token_type_ids: torch.LongTensor,
+            position_ids: torch.LongTensor,
+            attention_mask: Optional[torch.Tensor] = None,
+            past_key_value: Optional[Tuple[torch.Tensor]] = None,
+            output_attentions: bool = False,
+            use_cache: bool = False,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        bsz, q_len, _ = hidden_states.size()
+        vision_token_mask, language_token_mask = get_expert_mask(token_type_ids)
+
+        shape = list(hidden_states.shape)
+        shape[-1] = shape[-1] * 3
+        mixed_raw_layer = torch.empty(shape, dtype=hidden_states.dtype, device=hidden_states.device)
+        mixed_raw_layer[vision_token_mask] = self.vision_expert_query_key_value(hidden_states[vision_token_mask])
+        mixed_raw_layer[language_token_mask] = self.language_expert_query_key_value(hidden_states[language_token_mask])
+
+        query_states, key_states, value_states = torch.split(mixed_raw_layer, self.hidden_size, dim=-1)
+        query_states = self._transpose_for_scores(query_states)  # B, H, L, HD
+        key_states = self._transpose_for_scores(key_states)  # B, H, L, HD
+        value_states = self._transpose_for_scores(value_states)  # B, H, L, HD
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value[0].shape[-2]
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            kv_seq_len += past_key_value[0].shape[-2]
+
+        cos, sin = self.rotary_emb(value_states, seq_len=position_ids.max()+1)
+        query_states, key_states = apply_rotary_pos_emb_index_bhs(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            key_states = torch.cat([past_key_value[0], key_states], dim=2)
+            value_states = torch.cat([past_key_value[1], value_states], dim=2)
+
+        past_key_value = (key_states, value_states) if use_cache else None
+
+        context_layer = attention_fn(
+            query_layer=query_states, key_layer=key_states, value_layer=value_states, attention_mask=attention_mask,
+            scaling_attention_score=True, attention_dropout=None)
+        if context_layer.size() != (bsz, self.num_heads, q_len, self.head_dim):
+            raise ValueError(
+                f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                f" {context_layer.size()}"
+            )
+        context_layer = context_layer.transpose(1, 2).contiguous().reshape(bsz, q_len, self.hidden_size)
+
+        attn_output = torch.empty(context_layer.shape, dtype=hidden_states.dtype, device=hidden_states.device)
+        attn_output[vision_token_mask] = self.vision_expert_dense(context_layer[vision_token_mask])
+        attn_output[language_token_mask] = self.language_expert_dense(context_layer[language_token_mask])
+
+        if output_attentions:
+            warnings.warn("output_attentions is not implemented.")
+
+        return attn_output, None, past_key_value
+
+
+class CogVLMDecoderLayer(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.self_attn = VisionExpertAttention(config=config)
+        self.mlp = VisionExpertMLP(config)
+        self.input_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+        self.post_attention_layernorm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+    def forward(
+            self,
+            hidden_states: torch.Tensor,
+            token_type_ids: torch.LongTensor,
+            position_ids: torch.LongTensor,
+            attention_mask: Optional[torch.Tensor] = None,
+            past_key_value: Optional[Tuple[torch.Tensor]] = None,
+            output_attentions: Optional[bool] = False,
+            use_cache: Optional[bool] = False,
+    ) -> Tuple[torch.FloatTensor, Optional[Tuple[torch.FloatTensor, torch.FloatTensor]]]:
+        residual = hidden_states
+
+        hidden_states = self.input_layernorm(hidden_states)
+
+        # Self Attention
+        hidden_states, self_attn_weights, present_key_value = self.self_attn(
+            hidden_states=hidden_states,
+            token_type_ids=token_type_ids,
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+        )
+        hidden_states = residual + hidden_states
+
+        # Fully Connected
+        residual = hidden_states
+        hidden_states = self.post_attention_layernorm(hidden_states)
+        hidden_states = self.mlp(hidden_states, token_type_ids=token_type_ids)
+        hidden_states = residual + hidden_states
+
+        outputs = (hidden_states,)
+
+        if output_attentions:
+            outputs += (self_attn_weights,)
+
+        if use_cache:
+            outputs += (present_key_value,)
+
+        return outputs  # type: ignore
+
+
+class CogVLMPreTrainedModel(PreTrainedModel):
+    config_class = CogVLMConfig
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = False
+    _no_split_modules = ["CogVLMDecoderLayer"]
+    _skip_keys_device_placement = "past_key_values"
+
+    def _init_weights(self, module):
+        std = self.config.initializer_range
+        if isinstance(module, nn.Linear):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+
+
+def is_empty(images_list: Optional[List[List[torch.Tensor]]]):
+    if images_list is None or len(images_list) == 0:
+        return True
+    for image_list in images_list:
+        if len(image_list):
+            return False
+    return True
+
+
+def build_position_ids(x: "torch.BoolTensor(B, L)", attention_mask: Optional["torch.BoolTensor(B, L)"] = None) -> "torch.LongTensor(B, L)":
+    if attention_mask is not None:
+        tmp = x.clone()
+        tmp[~(attention_mask.bool())] = -1
+    else:
+        tmp = x.clone()
+    # image boi eoi token as LANGUAGE_TOKEN_TYPE
+    is_boi_eoi = torch.zeros_like(x, dtype=torch.bool)
+    is_boi_eoi[:, 1:] |= (tmp[:, 1:] == VISION_TOKEN_TYPE) & (tmp[:, :-1] == LANGUAGE_TOKEN_TYPE)
+    is_boi_eoi[:, 0] |= (tmp[:, 0] == VISION_TOKEN_TYPE)
+    is_boi_eoi[:, :-1] |= (tmp[:, :-1] == VISION_TOKEN_TYPE) & (tmp[:, 1:] == LANGUAGE_TOKEN_TYPE)
+    is_boi_eoi[:, -1] |= (tmp[:, -1] == VISION_TOKEN_TYPE)
+    tmp[is_boi_eoi] = LANGUAGE_TOKEN_TYPE
+    # final position ids
+    y = torch.zeros_like(x, dtype=torch.long)
+    y[:, 1:] = (tmp[:, 1:] == LANGUAGE_TOKEN_TYPE) | ((tmp[:, 1:] == VISION_TOKEN_TYPE) & (tmp[:, :-1] == LANGUAGE_TOKEN_TYPE))
+    y = y.cumsum(dim=-1)
+    return y
+
+
+class CogVLMModel(CogVLMPreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.padding_idx = config.pad_token_id
+        self.vocab_size = config.vocab_size
+
+        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
+        self.layers = nn.ModuleList([CogVLMDecoderLayer(config) for _ in range(config.num_hidden_layers)])
+        self.norm = RMSNorm(config.hidden_size, eps=config.rms_norm_eps)
+
+        self.vision = EVA2CLIPModel(config)
+
+        self.gradient_checkpointing = False
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def encode_images(self, images: List[List[torch.Tensor]]) -> torch.Tensor:
+        images_list, images = images, []
+
+        images = []
+        for image_list in images_list:
+            for image in image_list:
+                images.append(image)
+
+        images = torch.stack(images)
+        images_features = self.vision(images)
+        return images_features
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            images: List[List[torch.Tensor]] = None,
+            token_type_ids: Optional[torch.LongTensor] = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        """take care of image_encode, token_type_ids, position_ids and (attention_mask = None is fine)"""
+
+        if past_key_values is not None:
+            pass  # generate mode with past_key_values. the image features are already mapped
+        else:
+            # not allow for inputs_embeds, because we want to process image feature
+            assert input_ids is not None and inputs_embeds is None, f"{input_ids} {inputs_embeds}"
+            if not is_empty(images):  # multi-modality
+                assert token_type_ids is not None, f"multi-modality requires `token_type_ids`!"
+                assert len(input_ids) == len(images), f"{len(input_ids)} {len(images)}"
+                inputs_embeds = self.embed_tokens(input_ids)
+                images_features = self.encode_images(images)
+                images_features = rearrange(images_features, 'b n d -> (b n) d')
+                images_features = images_features.to(dtype=inputs_embeds.dtype, device=inputs_embeds.device)
+                inputs_embeds = inputs_embeds.index_put([token_type_ids == VISION_TOKEN_TYPE], images_features)
+            else:  # single-modality
+                if token_type_ids is None:
+                    token_type_ids = torch.ones_like(input_ids, dtype=torch.long, device=input_ids.device) * LANGUAGE_TOKEN_TYPE
+                assert not (token_type_ids == VISION_TOKEN_TYPE).any(), f"{(token_type_ids == VISION_TOKEN_TYPE).sum()}"
+                inputs_embeds = self.embed_tokens(input_ids)
+
+            if position_ids is None:
+                position_ids = build_position_ids(token_type_ids, attention_mask)
+            input_ids = None
+
+        return self.llm_forward(
+            input_ids=input_ids,
+            token_type_ids=token_type_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+    def llm_forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            token_type_ids: torch.LongTensor = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            return_dict: Optional[bool] = None,
+    ) -> Union[Tuple, BaseModelOutputWithPast]:
+        """largely copy from llama forward and adapt for cogvlm with `token_type_ids`"""
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # retrieve input_ids and inputs_embeds
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both decoder_input_ids and decoder_inputs_embeds at the same time")
+        elif input_ids is not None:
+            batch_size, seq_length = input_ids.shape
+        elif inputs_embeds is not None:
+            batch_size, seq_length, _ = inputs_embeds.shape
+        else:
+            raise ValueError("You have to specify either decoder_input_ids or decoder_inputs_embeds")
+
+        seq_length_with_past = seq_length
+        past_key_values_length = 0
+
+        if past_key_values is not None:
+            past_key_values_length = past_key_values[0][0].shape[2]
+            seq_length_with_past = seq_length_with_past + past_key_values_length
+
+        if position_ids is None:
+            device = input_ids.device if input_ids is not None else inputs_embeds.device
+            position_ids = torch.arange(
+                past_key_values_length, seq_length + past_key_values_length, dtype=torch.long, device=device
+            )
+            position_ids = position_ids.unsqueeze(0).view(-1, seq_length)
+        else:
+            position_ids = position_ids.view(-1, seq_length).long()
+
+        if inputs_embeds is None:
+            inputs_embeds = self.embed_tokens(input_ids)
+        # embed positions
+        if attention_mask is None:
+            attention_mask = torch.ones(
+                (batch_size, seq_length_with_past), dtype=torch.bool, device=inputs_embeds.device
+            )
+        attention_mask = self._prepare_decoder_attention_mask(
+            attention_mask, (batch_size, seq_length), inputs_embeds, past_key_values_length
+        )
+
+        hidden_states = inputs_embeds
+
+        # decoder layers
+        all_hidden_states = () if output_hidden_states else None
+        all_self_attns = () if output_attentions else None
+        next_decoder_cache = () if use_cache else None
+
+        for idx, decoder_layer in enumerate(self.layers):
+            if output_hidden_states:
+                all_hidden_states += (hidden_states,)
+
+            past_key_value = past_key_values[idx] if past_key_values is not None else None
+            layer_outputs = decoder_layer(
+                hidden_states,
+                token_type_ids=token_type_ids,
+                attention_mask=attention_mask,
+                position_ids=position_ids,
+                past_key_value=past_key_value,
+                output_attentions=output_attentions,
+                use_cache=use_cache,
+            )
+            hidden_states = layer_outputs[0]
+
+            if use_cache:
+                next_decoder_cache += (layer_outputs[2 if output_attentions else 1],)
+
+            if output_attentions:
+                all_self_attns += (layer_outputs[1],)
+
+        hidden_states = self.norm(hidden_states)
+
+        # add hidden states from the last decoder layer
+        if output_hidden_states:
+            all_hidden_states += (hidden_states,)
+
+        next_cache = next_decoder_cache if use_cache else None
+        if not return_dict:
+            return tuple(v for v in [hidden_states, next_cache, all_hidden_states, all_self_attns] if v is not None)
+        return BaseModelOutputWithPast(
+            last_hidden_state=hidden_states,
+            past_key_values=next_cache,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attns,
+        )
+
+    def get_input_embeddings(self):
+        return self.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.embed_tokens = value
+
+    # noinspection PyMethodMayBeStatic
+    # Copied from transformers.models.bart.modeling_bart.BartDecoder._prepare_decoder_attention_mask
+    def _prepare_decoder_attention_mask(self, attention_mask, input_shape, inputs_embeds, past_key_values_length):
+        # create causal mask
+        # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
+        combined_attention_mask = None
+        if input_shape[-1] > 1:
+            combined_attention_mask = _make_causal_mask(
+                input_shape,
+                inputs_embeds.dtype,
+                device=inputs_embeds.device,
+                past_key_values_length=past_key_values_length,
+            )
+
+        if attention_mask is not None:
+            # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
+            expanded_attn_mask = _expand_mask(attention_mask, inputs_embeds.dtype, tgt_len=input_shape[-1]).to(
+                inputs_embeds.device
+            )
+            combined_attention_mask = (
+                expanded_attn_mask if combined_attention_mask is None else expanded_attn_mask + combined_attention_mask
+            )
+
+        return combined_attention_mask
+
+
+def chat_history_to_prompt(history, query):
+    prompt = " [INST] "
+    for i, (old_query, response) in enumerate(history):
+        prompt += old_query + " [/INST] " + response + " [INST] "
+    prompt += query + " [/INST] "
+    return prompt
+
+
+def base_history_to_prompt(history, query):
+    prompt = query
+    return prompt
+
+
+_history_to_prompt = {
+    "base": base_history_to_prompt,
+    "chat": chat_history_to_prompt
+}
+
+
+class CogVLMForCausalLM(CogVLMPreTrainedModel):
+    _auto_class = "AutoModelForCausalLM"
+
+    def __init__(self, config):
+        super().__init__(config)
+        self.model = CogVLMModel(config)
+        self.vocab_size = config.vocab_size
+        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
+
+        # Initialize weights and apply final processing
+        self.post_init()
+
+    def get_input_embeddings(self):
+        return self.model.embed_tokens
+
+    def set_input_embeddings(self, value):
+        self.model.embed_tokens = value
+
+    def get_output_embeddings(self):
+        return self.lm_head
+
+    def set_output_embeddings(self, new_embeddings):
+        self.lm_head = new_embeddings
+
+    def set_decoder(self, decoder):
+        self.model = decoder
+
+    def get_decoder(self):
+        return self.model
+
+    def forward(
+            self,
+            input_ids: torch.LongTensor = None,
+            images: List[List[torch.Tensor]] = None,
+            token_type_ids: Optional[torch.LongTensor] = None,
+            attention_mask: Optional[torch.Tensor] = None,
+            position_ids: Optional[torch.LongTensor] = None,
+            past_key_values: Optional[List[torch.FloatTensor]] = None,
+            inputs_embeds: Optional[torch.FloatTensor] = None,
+            use_cache: Optional[bool] = None,
+            output_attentions: Optional[bool] = None,
+            output_hidden_states: Optional[bool] = None,
+            return_dict: Optional[bool] = None,
+            labels: Optional[torch.LongTensor] = None,
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.model(
+            input_ids=input_ids,
+            images=images,
+            token_type_ids=token_type_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+
+        hidden_states = outputs[0]
+        logits = self.lm_head(hidden_states)
+        logits = logits.float()
+
+        loss = None
+        if labels is not None:
+            # Shift so that tokens < n predict n
+            shift_logits = logits[..., :-1, :].contiguous()
+            shift_labels = labels[..., 1:].contiguous()
+            # Flatten the tokens
+            loss_fct = CrossEntropyLoss()
+            shift_logits = shift_logits.view(-1, self.config.vocab_size)
+            shift_labels = shift_labels.view(-1)
+            # Enable model parallelism
+            shift_labels = shift_labels.to(shift_logits.device)
+            loss = loss_fct(shift_logits, shift_labels)
+
+        if not return_dict:
+            output = (logits,) + outputs[1:]
+            return (loss,) + output if loss is not None else output
+
+        return CausalLMOutputWithPast(
+            loss=loss,
+            logits=logits,
+            past_key_values=outputs.past_key_values,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )
+
+    def _prepare_attention_mask_for_generation(
+            self,
+            inputs: torch.Tensor,
+            pad_token_id: Optional[int],
+            eos_token_id: Optional[Union[int, List[int]]],
+    ) -> torch.LongTensor:
+        return torch.ones(inputs.shape[:2], dtype=torch.long, device=inputs.device)  # type: ignore
+
+    def prepare_inputs_for_generation(
+            self, input_ids, token_type_ids, images=None, past_key_values=None, attention_mask=None, inputs_embeds=None, **kwargs
+    ):
+        # build position_ids if needed
+        position_ids = kwargs.get("position_ids", None)
+        if position_ids is None:
+            position_ids = build_position_ids(token_type_ids, attention_mask)
+
+        if past_key_values:
+            input_ids = input_ids[:, -1:]
+            token_type_ids = token_type_ids[:, -1:]
+            position_ids = position_ids[:, -1:]
+
+        # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+        if inputs_embeds is not None and past_key_values is None:
+            model_inputs = {"inputs_embeds": inputs_embeds}
+        else:
+            model_inputs = {"input_ids": input_ids}
+
+        model_inputs.update(
+            {
+                "token_type_ids": token_type_ids,
+                "images": images,
+                "position_ids": position_ids,
+                "past_key_values": past_key_values,
+                "use_cache": kwargs.get("use_cache"),
+                "attention_mask": attention_mask,
+            }
+        )
+        return model_inputs
+
+    def _update_model_kwargs_for_generation(
+            self,
+            outputs: "ModelOutput",
+            model_kwargs: Dict[str, Any],
+            is_encoder_decoder: bool = False,
+            standardize_cache_format: bool = False,
+    ) -> Dict[str, Any]:
+        # update past_key_values
+        model_kwargs["past_key_values"] = self._extract_past_from_model_output(
+            outputs, standardize_cache_format=standardize_cache_format
+        )
+        if getattr(outputs, "state", None) is not None:
+            model_kwargs["state"] = outputs.state
+
+        # update token_type_ids with last value
+        if "token_type_ids" in model_kwargs:
+            token_type_ids = model_kwargs["token_type_ids"]
+            new_token_type_ids = torch.ones(size=(token_type_ids.shape[0], 1), dtype=token_type_ids.dtype, device=token_type_ids.device) * LANGUAGE_TOKEN_TYPE
+            model_kwargs["token_type_ids"] = torch.cat([token_type_ids, new_token_type_ids], dim=-1)
+
+        if not is_encoder_decoder:
+            # update attention mask
+            if "attention_mask" in model_kwargs:
+                attention_mask = model_kwargs["attention_mask"]
+                model_kwargs["attention_mask"] = torch.cat(
+                    [attention_mask, attention_mask.new_ones((attention_mask.shape[0], 1))], dim=-1
+                )
+        else:
+            # update decoder attention mask
+            if "decoder_attention_mask" in model_kwargs:
+                decoder_attention_mask = model_kwargs["decoder_attention_mask"]
+                model_kwargs["decoder_attention_mask"] = torch.cat(
+                    [decoder_attention_mask, decoder_attention_mask.new_ones((decoder_attention_mask.shape[0], 1))],
+                    dim=-1,
+                )
+
+        return model_kwargs
+
+    def _reorder_cache(self, past_key_values, beam_idx):
+        reordered_past = ()
+        for layer_past in past_key_values:
+            reordered_past += (
+                tuple(past_state.index_select(0, beam_idx.to(past_state.device)) for past_state in layer_past),
+            )
+        return reordered_past
+
+    def build_conversation_input_ids(
+            self,
+            tokenizer: "PreTrainedTokenizer",
+            *,
+            query: str,
+            history: Optional[List[Tuple[str, str]]] = None,
+            images: Optional[List["PIL.Image"]] = None,
+            template_version: Optional[Literal["base", "chat"]] = None,
+    ):
+        image_size: int = self.config.vision_config['image_size']
+        patch_size: int = self.config.vision_config['patch_size']
+        template_version = template_version or self.config.template_version
+        assert images is None or len(images) <= 1, f"not support multi images by now."
+        history = history or []
+        text = _history_to_prompt[template_version](history, query)
+
+        input_ids = [tokenizer.bos_token_id]
+        token_type_ids = [LANGUAGE_TOKEN_TYPE]
+        if images is not None and len(images) == 1:
+            # vision
+            transform = transforms.Compose(
+                [
+                    transforms.Resize(
+                        (image_size, image_size), interpolation=transforms.InterpolationMode.BICUBIC
+                    ),
+                    transforms.ToTensor(),
+                    transforms.Normalize((0.48145466, 0.4578275, 0.40821073), (0.26862954, 0.26130258, 0.27577711)),
+                ]
+            )
+            images = [transform(images[0])]
+            # language
+            vision_token_num = (image_size // patch_size) * (image_size // patch_size) + 2
+            input_ids += [tokenizer.pad_token_id] * vision_token_num
+            token_type_ids += [VISION_TOKEN_TYPE] * vision_token_num
+        text_ids = tokenizer.encode(text, add_special_tokens=False)
+
+        input_ids += text_ids
+        token_type_ids += [LANGUAGE_TOKEN_TYPE] * len(text_ids)
+        attention_mask = [1] * len(input_ids)
+
+        return {
+            'input_ids': torch.tensor(input_ids, dtype=torch.long),
+            'token_type_ids': torch.tensor(token_type_ids, dtype=torch.long),
+            'attention_mask': torch.tensor(attention_mask, dtype=torch.long),
+            'images': images,
+        }
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/rotary_embeddings.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/rotary_embeddings.py
new file mode 100644
index 0000000000..a9e17df12e
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/rotary_embeddings.py
@@ -0,0 +1,136 @@
+import torch
+import torch.nn.functional as F
+
+
+class RotaryEmbedding(torch.nn.Module):
+
+    def __init__(self, dim, base=10000, precision=torch.half, learnable=False, device=torch.device('cpu')):
+        super().__init__()
+        inv_freq = 1. / (base ** (torch.arange(0, dim, 2, device=device).float() / dim))
+        # inv_freq = inv_freq.half()
+        self.learnable = learnable
+        if learnable:
+            self.inv_freq = torch.nn.Parameter(inv_freq)
+            self.max_seq_len_cached = None
+        else:
+            self.register_buffer('inv_freq', inv_freq)
+            self.max_seq_len_cached = None
+            self.cos_cached = None
+            self.sin_cached = None
+        self.precision = precision
+
+    def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict, missing_keys, unexpected_keys, error_msgs):
+        pass
+
+    def forward(self, x, seq_dim=1, seq_len=None):
+        if seq_len is None:
+            seq_len = x.shape[seq_dim]
+        if self.max_seq_len_cached is None or (seq_len > self.max_seq_len_cached):
+            self.max_seq_len_cached = None if self.learnable else seq_len
+            t = torch.arange(seq_len, device=x.device, dtype=torch.float32)
+            freqs = torch.einsum('i,j->ij', t, self.inv_freq)
+            # Different from paper, but it uses a different permutation in order to obtain the same calculation
+            emb = torch.cat((freqs, freqs), dim=-1).to(x.device)
+            if self.precision == torch.bfloat16:
+                emb = emb.float()
+
+            # [sx, 1 (b * np), hn]
+            cos_cached = emb.cos()[:, None, :]
+            sin_cached = emb.sin()[:, None, :]
+            cos_cached = cos_cached.to(x.dtype)
+            sin_cached = sin_cached.to(x.dtype)
+            if self.learnable:
+                return cos_cached, sin_cached
+            self.cos_cached, self.sin_cached = cos_cached, sin_cached
+        return self.cos_cached[:seq_len, ...], self.sin_cached[:seq_len, ...]
+
+
+class RotaryPositionalEmbeddingFunction(torch.autograd.Function):
+
+    @staticmethod
+    def forward(ctx, q, cos, sin):
+        import rotary_positional_embedding_cuda
+
+        q_ = q.contiguous()
+        cos_ = cos.contiguous()
+        sin_ = sin.contiguous()
+        output = rotary_positional_embedding_cuda.forward(*q.shape, q_, cos_, sin_)
+        ctx.save_for_backward(cos_, sin_)
+
+        return output
+
+    @staticmethod
+    def backward(ctx, grad_output):
+        import rotary_positional_embedding_cuda
+
+        cos_, sin_ = ctx.saved_tensors
+        grad_q = rotary_positional_embedding_cuda.backward(*grad_output.shape, grad_output, cos_, sin_)
+
+        return grad_q, None, None
+
+# rotary pos emb helpers:
+
+def rotate_half(x):
+    x1, x2 = x[..., :x.shape[-1] // 2], x[..., x.shape[-1] // 2:]
+    return torch.cat((-x2, x1), dim=x1.ndim - 1)  # dim=-1 triggers a bug in earlier torch versions
+
+
+def apply_rotary_pos_emb_index_bhs(q, k, cos, sin, position_id):
+    # batch_size, num_head, seq_len, hidden_size
+    cos, sin = F.embedding(position_id, cos.squeeze(1)).unsqueeze(1), \
+               F.embedding(position_id, sin.squeeze(1)).unsqueeze(1)
+    q = (q * cos) + (rotate_half(q) * sin)
+    k = (k * cos) + (rotate_half(k) * sin)
+    return q, k
+
+
+@torch.jit.script
+def apply_rotary_pos_emb(q, k, cos, sin, offset: int = 0):
+    cos, sin = cos[offset:q.shape[0] + offset, ...], sin[offset:q.shape[0] + offset, ...]
+    return (q * cos) + (rotate_half(q) * sin), (k * cos) + (rotate_half(k) * sin)
+
+
+def apply_rotary_pos_emb_torch(q, k, cos, sin, offset: int = 0):  # jitting fails with bf16
+    cos, sin = cos[offset:q.shape[0] + offset, ...], sin[offset:q.shape[0] + offset, ...]
+    return (q * cos) + (rotate_half(q) * sin), (k * cos) + (rotate_half(k) * sin)
+
+
+def apply_rotary_pos_emb_fused(q, k, cos, sin, offset: int = 0):
+    cos, sin = cos[offset:q.shape[0] + offset, ...], sin[offset:q.shape[0] + offset, ...]
+    q = RotaryPositionalEmbeddingFunction.apply(q, cos, sin)
+    k = RotaryPositionalEmbeddingFunction.apply(k, cos, sin)
+    return q, k
+
+
+@torch.jit.script
+def apply_rotary_pos_emb_index_single(q, cos, sin, position_id):
+    # position_id: [sq, b], q, k: [sq, b, np, hn], cos: [sq, 1, hn] -> [sq, b, 1, hn]
+    cos, sin = F.embedding(position_id, cos.squeeze(1)).unsqueeze(2), \
+               F.embedding(position_id, sin.squeeze(1)).unsqueeze(2)
+    return (q * cos) + (rotate_half(q) * sin)
+
+
+@torch.jit.script
+def apply_rotary_pos_emb_index(q, k, cos, sin, position_id):
+    # position_id: [sq, b], q, k: [sq, b, np, hn], cos: [sq, 1, hn] -> [sq, b, 1, hn]
+    cos, sin = F.embedding(position_id, cos.squeeze(1)).unsqueeze(2), \
+               F.embedding(position_id, sin.squeeze(1)).unsqueeze(2)
+    q, k = (q * cos) + (rotate_half(q) * sin), (k * cos) + (rotate_half(k) * sin)
+    return q, k
+
+
+def apply_rotary_pos_emb_index_torch(q, k, cos, sin, position_id):  # jitting fails with bf16
+    # position_id: [sq, b], q, k: [sq, b, np, hn], cos: [sq, 1, hn] -> [sq, b, 1, hn]
+    cos, sin = F.embedding(position_id, cos.squeeze(1)).unsqueeze(2), \
+               F.embedding(position_id, sin.squeeze(1)).unsqueeze(2)
+    q, k = (q * cos) + (rotate_half(q) * sin), (k * cos) + (rotate_half(k) * sin)
+    return q, k
+
+
+def apply_rotary_pos_emb_index_fused(q, k, cos, sin, position_id):
+    # position_id: [sq, b], q, k: [sq, b, np, hn], cos: [sq, 1, hn] -> [sq, b, 1, hn]
+    cos, sin = F.embedding(position_id, cos.squeeze(1)).unsqueeze(2), \
+               F.embedding(position_id, sin.squeeze(1)).unsqueeze(2)
+    q = RotaryPositionalEmbeddingFunction.apply(q, cos, sin)
+    k = RotaryPositionalEmbeddingFunction.apply(k, cos, sin)
+    return q, k
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/transformer_defaults.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/transformer_defaults.py
new file mode 100644
index 0000000000..da4a2da6ad
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/transformer_defaults.py
@@ -0,0 +1,270 @@
+# coding=utf-8
+# -*- encoding: utf-8 -*-
+'''
+@File    :   transformer_defaults.py
+@Time    :   2022/06/01 21:44:17
+@Author  :   Ming Ding 
+@Contact :   dm18@mails.tsinghua.edu.cn
+'''
+
+import math
+import torch
+import torch.nn.functional as F
+
+from sat import mpu
+
+from sat.mpu.utils import split_tensor_along_last_dim
+
+def standard_attention(query_layer, key_layer, value_layer, attention_mask,
+                       attention_dropout=None, log_attention_weights=None, scaling_attention_score=True, **kwargs):
+    # We disable the PB-relax-Attention and only changes the order of computation, because it is enough for most of training. 
+    # The implementation in the paper can be done very easily, if you really need it to train very deep transformers. 
+
+    if scaling_attention_score:
+        query_layer = query_layer / math.sqrt(query_layer.shape[-1])
+    attention_scores = torch.matmul(query_layer, key_layer.transpose(-1, -2))
+    if log_attention_weights is not None:
+        attention_scores += log_attention_weights
+
+    if not (attention_mask.shape[-2] == 1 and (attention_mask > 0).all()):
+        # if auto-regressive, skip
+        attention_scores = torch.mul(attention_scores, attention_mask) - \
+                           10000.0 * (1.0 - attention_mask)
+
+    attention_probs = F.softmax(attention_scores, dim=-1)
+
+    if attention_dropout is not None:
+        if mpu.get_cuda_rng_tracker is not None:
+            with mpu.get_cuda_rng_tracker().fork():
+                attention_probs = attention_dropout(attention_probs)
+        else:
+            attention_probs = attention_dropout(attention_probs)
+
+    context_layer = torch.matmul(attention_probs, value_layer)
+    return context_layer
+
+
+def attention_fn_default(query_layer, key_layer, value_layer, attention_mask,
+                       attention_dropout=None, log_attention_weights=None, scaling_attention_score=True, **kwargs):
+    # expand head dim to query dim, if necessary
+    # only useful for multi-query attention
+    batch_size, num_query_heads = query_layer.shape[:2] # [b, np, s, hn]
+    num_kv_heads = key_layer.shape[1] # [b, np, s, hn]
+    key_layer = key_layer.unsqueeze(2).expand(-1, -1, num_query_heads//num_kv_heads, -1, -1).contiguous().view(batch_size, num_query_heads, *key_layer.shape[2:])
+    value_layer = value_layer.unsqueeze(2).expand(-1, -1, num_query_heads//num_kv_heads, -1, -1).contiguous().view(batch_size, num_query_heads, *value_layer.shape[2:])
+
+    is_low_triangle = (attention_mask == torch.ones_like(attention_mask, dtype=torch.float).tril()).all()
+    is_full = (attention_mask is None) or (attention_mask > 0).all()
+
+    if int(torch.__version__.split('.')[0]) >= 2 and scaling_attention_score and (is_full or is_low_triangle):
+        # Pytorch 2.0 attention uses very much memory if attention_mask is float, and has NaN bug if attention_mask is None.
+        dropout_p = 0. if attention_dropout is None or not attention_dropout.training else attention_dropout.p
+        return torch.nn.functional.scaled_dot_product_attention(
+            query_layer, key_layer, value_layer,
+            attn_mask=None,
+            dropout_p=dropout_p,
+            is_causal=not is_full
+        )
+    else:
+        return standard_attention(
+            query_layer, key_layer, value_layer, attention_mask,
+            attention_dropout=attention_dropout, log_attention_weights=log_attention_weights,
+            scaling_attention_score=scaling_attention_score, **kwargs
+        )
+
+def attention_forward_default(self, hidden_states, mask, **kw_args):
+    self = self.transformer.layers[kw_args['layer_id']].attention
+    attention_fn = attention_fn_default
+    if 'attention_fn' in self.hooks:
+        attention_fn = self.hooks['attention_fn']
+
+    mixed_raw_layer = self.query_key_value(hidden_states)
+    (mixed_query_layer,
+        mixed_key_layer,
+        mixed_value_layer) = split_tensor_along_last_dim(mixed_raw_layer, self.stride)
+
+    dropout_fn = self.attention_dropout if self.training else None
+
+    query_layer = self._transpose_for_scores(mixed_query_layer)
+    key_layer = self._transpose_for_scores(mixed_key_layer)
+    value_layer = self._transpose_for_scores(mixed_value_layer)
+
+    context_layer = attention_fn(query_layer, key_layer, value_layer, mask, dropout_fn, **kw_args)
+
+    context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
+    new_context_layer_shape = context_layer.size()[:-2] + (self.hidden_size_per_partition,)
+    context_layer = context_layer.view(*new_context_layer_shape)
+    output = self.dense(context_layer)
+
+    if self.training:
+        output = self.output_dropout(output)
+    return output
+
+def cross_attention_forward_default(self, hidden_states, cross_attention_mask, encoder_outputs, **kw_args):
+    self = self.transformer.layers[kw_args['layer_id']].cross_attention
+    attention_fn = attention_fn_default
+    if 'attention_fn' in self.hooks:
+        attention_fn = self.hooks['attention_fn']
+
+    mixed_query_layer = self.query(hidden_states)
+    query_layer = self._transpose_for_scores(mixed_query_layer)
+    dropout_fn = self.attention_dropout if self.training else None
+    if isinstance(encoder_outputs, torch.Tensor):
+        mixed_x_layer = self.key_value(encoder_outputs)
+        (mixed_key_layer, mixed_value_layer) = split_tensor_along_last_dim(mixed_x_layer, 2)
+        # Reshape and transpose [b, np, s, hn]
+        key_layer = self._transpose_for_scores(mixed_key_layer)
+        value_layer = self._transpose_for_scores(mixed_value_layer)
+        mem_cross = (key_layer, value_layer)
+    else:
+        key_layer, value_layer = encoder_outputs[kw_args['layer_id']]
+        mem_cross = (key_layer, value_layer)
+
+    context_layer = attention_fn(query_layer, key_layer, value_layer, cross_attention_mask, dropout_fn, cross_attention=True, mem_cross=mem_cross, **kw_args)
+    context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
+    new_context_layer_shape = context_layer.size()[:-2] + (self.hidden_size_per_partition,)
+    # [b, s, hp]
+    context_layer = context_layer.view(*new_context_layer_shape)
+
+    # Output. [b, s, h]
+    output = self.dense(context_layer)
+    if self.training:
+        output = self.output_dropout(output)
+    return output
+
+def mlp_forward_default(self, hidden_states, **kw_args):
+    self = self.transformer.layers[kw_args['layer_id']].mlp
+    intermediate_parallel = self.dense_h_to_4h(hidden_states)
+    intermediate_parallel = self.activation_func(intermediate_parallel)
+    output = self.dense_4h_to_h(intermediate_parallel)
+    return output
+
+def gated_mlp_forward_default(self, hidden_states, **kw_args):
+    self = self.transformer.layers[kw_args['layer_id']].mlp
+    intermediate_parallel = self.dense_h_to_4h(hidden_states)
+    gated_intermediate_parallel = self.dense_h_to_4h_gate(hidden_states)
+    intermediate_parallel = self.activation_func(gated_intermediate_parallel) * intermediate_parallel
+    output = self.dense_4h_to_h(intermediate_parallel)
+    return output
+
+def word_embedding_forward_default(self, input_ids, output_cross_layer, **kw_args):
+    return self.transformer.word_embeddings(input_ids)
+
+def position_embedding_forward_default(self, position_ids, output_cross_layer, **kw_args):
+    return self.transformer.position_embeddings(position_ids)
+
+from sat.mpu import gather_from_model_parallel_region
+def final_forward_default(self, logits, **kw_args):
+    logits_parallel = F.linear(logits, self.transformer.word_embeddings.weight)
+    if not kw_args['parallel_output']:
+        logits_parallel = gather_from_model_parallel_region(logits_parallel)
+    return logits_parallel
+
+def layer_forward_default(self, hidden_states, mask, *args, **kw_args):
+    '''
+        hidden_states: [batch, seq_len, hidden_size]
+        mask: [(1, 1), seq_len, seq_len]
+    '''
+    self = self.transformer.layers[kw_args['layer_id']]
+    
+    # Layer norm at the begining of the transformer layer.
+    attention_input = self.input_layernorm(hidden_states)
+    # Self attention.
+    attention_output = self.attention(attention_input, mask, **kw_args)
+
+    # Third LayerNorm
+    if self.layernorm_order == 'sandwich':
+        attention_output = self.third_layernorm(attention_output)
+
+    # DropPath for attention
+    if self.training and self.drop_path > 0.:
+        # drop_path percentage 0, others 1/(1-p)
+        random_tensor = (1-self.drop_path
+                            + torch.rand((attention_output.shape[0],), dtype=attention_output.dtype, device=attention_output.device)).floor_() / (1-self.drop_path)
+        attention_output = random_tensor.view(-1, 1, 1) * attention_output
+    
+    # Residual connection.
+    if self.layernorm_order == 'post':
+        hidden_states = attention_input + attention_output
+        mlp_input = self.post_attention_layernorm(hidden_states)
+    else:
+        hidden_states = hidden_states + attention_output
+
+    if self.is_decoder:
+        encoder_outputs = kw_args['encoder_outputs']
+        if encoder_outputs is not None:
+            assert 'cross_attention_mask' in kw_args
+            # Cross attention
+            if self.layernorm_order == 'post':
+                attention_output = self.cross_attention(mlp_input, **kw_args)
+                # Residual connection.
+                hidden_states = mlp_input + attention_output
+                # Layer norm post the cross attention
+                mlp_input = self.post_cross_attention_layernorm(hidden_states)
+            else:
+                cross_input = self.post_cross_attention_layernorm(hidden_states)
+                attention_output = self.cross_attention(cross_input, **kw_args)
+                hidden_states = hidden_states + attention_output
+
+    if self.layernorm_order != 'post':
+        mlp_input = self.post_attention_layernorm(hidden_states)    
+
+    # MLP.
+    mlp_output = self.mlp(mlp_input, **kw_args)
+
+    # Fourth LayerNorm
+    if self.layernorm_order == 'sandwich':
+        mlp_output = self.fourth_layernorm(mlp_output)
+
+    # DropPath for mlp
+    if self.training and self.drop_path > 0.:
+        random_tensor = (1-self.drop_path
+                            + torch.rand((mlp_output.shape[0],), dtype=mlp_output.dtype, device=mlp_output.device)).floor_() / (1-self.drop_path)
+        mlp_output = random_tensor.view(-1, 1, 1) * mlp_output
+
+    # Second residual connection.
+    if self.layernorm_order == 'post':
+        output = mlp_input + mlp_output
+    else:
+        output = hidden_states + mlp_output
+
+    return output
+
+HOOKS_DEFAULT = {
+    'attention_fn': attention_fn_default,
+    'attention_forward': attention_forward_default,
+    'cross_attention_forward': cross_attention_forward_default,
+    'mlp_forward': mlp_forward_default,
+    'gated_mlp_forward': gated_mlp_forward_default,
+    'word_embedding_forward': word_embedding_forward_default,
+    'position_embedding_forward': position_embedding_forward_default,
+    'final_forward': final_forward_default,
+    'layer_forward': layer_forward_default
+}
+
+ARGS_DEFAULT = {
+    'embedding_dropout_prob': ('hidden_dropout', 0),
+    'attention_dropout_prob': ('attention_dropout', 0),
+    'output_dropout_prob': ('hidden_dropout', 0),
+    'inner_hidden_size': ('inner_hidden_size', None),
+    'hidden_size_per_attention_head': ('hidden_size_per_attention_head', None),
+    'cross_hidden_size_per_attention_head': ('cross_hidden_size_per_attention_head', None),
+    'checkpoint_activations': ('checkpoint_activations', False),
+    'checkpoint_num_layers': ('checkpoint_num_layers', 1),
+    'checkpoint_skip_layers': ('checkpoint_skip_layers', 0),
+    'is_decoder': ('is_decoder', False),
+    'cross_attn_hidden_size': ('cross_attn_hidden_size', None),
+    'use_final_layernorm': ('use_final_layernorm', True),
+    'layernorm_epsilon': ('layernorm_epsilon', 1e-5),
+    'use_bias': ('use_bias', True),
+    'use_qkv_bias': ('use_qkv_bias', False),
+    'num_multi_query_heads': ('num_multi_query_heads', 0),
+    'cross_num_multi_query_heads': ('cross_num_multi_query_heads', 0),
+    'drop_path': ('drop_path', 0.),
+    'row_parallel_linear_final_bias': ('row_parallel_linear_final_bias', True),
+    'is_gated_mlp': ('is_gated_mlp', False)
+}
+
+from sat.ops.layernorm import LayerNorm, RMSNorm
+
+NO_WD_MODULES = [LayerNorm, torch.nn.LayerNorm, RMSNorm]
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/triton_rotary_embeddings.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/triton_rotary_embeddings.py
new file mode 100644
index 0000000000..d11b0ac794
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/triton_rotary_embeddings.py
@@ -0,0 +1,15 @@
+from .rotary_embeddings import RotaryEmbedding  as FastRotaryEmbedding, rotate_half
+import torch.nn.functional as F
+
+
+def apply_rotary_pos_emb_index_bhs(q, k, cos, sin, position_id):
+    """
+    位置编码计算
+    """
+    # batch_size, num_head, seq_len, hidden_size
+    cos, sin = F.embedding(position_id, cos.squeeze(1)).unsqueeze(1), \
+               F.embedding(position_id, sin.squeeze(1)).unsqueeze(1)
+    q = (q * cos) + (rotate_half(q) * sin)
+    k = (k * cos) + (rotate_half(k) * sin)
+    return q, k
+
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/visual.py b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/visual.py
new file mode 100644
index 0000000000..434e603eaf
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/visual.py
@@ -0,0 +1,169 @@
+import torch
+import torch_npu
+from torch import nn
+from argparse import Namespace
+from transformers.activations import ACT2FN
+
+
+class FlashSelfAttention(torch.nn.Module):
+    """Implement the scaled dot product attention with softmax.
+    Arguments
+    ---------
+        softmax_scale: The temperature to use for the softmax attention.
+                      (default: 1/sqrt(d_keys) where d_keys is computed at
+                      runtime)
+        attention_dropout: The dropout rate to apply to the attention
+                           (default: 0.0)
+    """
+
+    def __init__(self, causal=False, softmax_scale=1., attention_dropout=0.):
+        super().__init__()
+        self.causal = causal
+        self.softmax_scale = softmax_scale
+        self.dropout_p = attention_dropout
+
+    def forward(self, q, k, v, n, attention_mask, pse):
+
+        if self.causal:
+            output = torch_npu.npu_fusion_attention(
+                q, k, v, n, "BSND",# SBH
+                pse=pse,
+                padding_mask=None,
+                atten_mask=attention_mask,
+                scale=self.softmax_scale,
+                pre_tockens=k.shape[1],  # seq_len
+                next_tockens=0,  # 0
+                keep_prob=1 - self.dropout_p,
+            )[0]
+            return output
+        raise Exception("the attention type {} is not support!".format(self.attention_type))
+
+
+class PatchEmbedding(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.proj = nn.Conv2d(config.in_channels, config.hidden_size, kernel_size=config.patch_size, stride=config.patch_size)
+        self.cls_embedding = nn.Parameter(torch.zeros(1, config.hidden_size))
+        self.position_embedding = nn.Embedding(config.num_positions, config.hidden_size)
+
+    def forward(self, images: "tensor(B, C, H, W)") -> "tensor(B, L, D)":
+        x = self.proj(images)
+        x = x.flatten(2).transpose(1, 2)
+        cls_token = self.cls_embedding.expand(x.shape[0], -1, -1)
+        x = torch.cat((cls_token, x), dim=1)
+        x += self.position_embedding.weight.unsqueeze(0)
+        return x
+
+
+class Attention(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.num_heads = config.num_heads
+        head_dim = config.hidden_size // config.num_heads
+        self.scale = head_dim ** -0.5
+        self.query_key_value = nn.Linear(config.hidden_size, config.hidden_size * 3)
+        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
+        self.output_dropout = torch.nn.Dropout(config.dropout_prob)
+        self.core_attention_flash = FlashSelfAttention(
+                causal=True, softmax_scale=self.scale, attention_dropout=config.dropout_prob
+            )
+
+    def forward(self, x: "tensor(B, L, D)") -> "tensor(B, L, D)":
+        B, L, _ = x.shape
+        qkv = self.query_key_value(x)
+        qkv = qkv.reshape(B, L, 3, self.num_heads, -1).permute(2, 0, 1, 3, 4)  # 3, B, L, H, D
+        q, k, v = qkv[0], qkv[1], qkv[2]
+        out = self.core_attention_flash(q, k, v, self.num_heads, None, None)
+        output = self.dense(out.view(B, L, -1))
+        output = self.output_dropout(output)
+        return output
+
+    def attention(self, q, k, v):
+        attn_weights = torch.matmul(q * self.scale, k.transpose(-2, -1))
+        attn_weights = attn_weights.softmax(dim=-1)
+        output = torch.matmul(attn_weights, v)
+        return output
+
+
+class MLP(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.config = config
+        self.activation_fn = ACT2FN[config.hidden_act]
+        self.fc1 = nn.Linear(config.hidden_size, config.intermediate_size)
+        self.fc2 = nn.Linear(config.intermediate_size, config.hidden_size)
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x = self.fc1(x)
+        x = self.activation_fn(x)
+        x = self.fc2(x)
+        return x
+
+
+class TransformerLayer(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.input_layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+        self.attention = Attention(config)
+        self.mlp = MLP(config)
+        self.post_attention_layernorm = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_eps)
+
+    def forward(self, hidden_states):
+        attention_input = hidden_states
+        attention_output = self.input_layernorm(self.attention(attention_input))
+        hidden_states = attention_input + attention_output
+        mlp_input = hidden_states
+        mlp_output = self.post_attention_layernorm(self.mlp(mlp_input))
+        output = mlp_input + mlp_output
+        return output
+
+
+class Transformer(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.layers = nn.ModuleList([TransformerLayer(config) for _ in range(config.num_hidden_layers)])
+
+    def forward(self, hidden_states):
+        for layer_module in self.layers:
+            hidden_states = layer_module(hidden_states)
+        return hidden_states
+
+
+class GLU(nn.Module):
+    def __init__(self, config, in_features):
+        super().__init__()
+        self.linear_proj = nn.Linear(in_features, config.hidden_size, bias=False)
+        self.norm1 = nn.LayerNorm(config.hidden_size)
+        self.act1 = nn.GELU()
+        self.act2 = nn.functional.silu
+        self.dense_h_to_4h = nn.Linear(config.hidden_size, config.intermediate_size, bias=False)
+        self.gate_proj = nn.Linear(config.hidden_size, config.intermediate_size, bias=False)
+        self.dense_4h_to_h = nn.Linear(config.intermediate_size, config.hidden_size, bias=False)
+
+    def forward(self, x):
+        x = self.linear_proj(x)
+        x = self.act1(self.norm1(x))
+        x = self.act2(self.gate_proj(x)) * self.dense_h_to_4h(x)
+        x = self.dense_4h_to_h(x)
+        return x
+
+
+class EVA2CLIPModel(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        vision_config = Namespace(**config.vision_config)
+        self.patch_embedding = PatchEmbedding(vision_config)
+        self.transformer = Transformer(vision_config)
+        self.linear_proj = GLU(config, in_features=vision_config.hidden_size)
+        self.boi = nn.Parameter(torch.zeros(1, 1, config.hidden_size))
+        self.eoi = nn.Parameter(torch.zeros(1, 1, config.hidden_size))
+
+    def forward(self, images: "tensor(B, C, H, W)") -> "tensor(B, L, D)":
+        x = self.patch_embedding(images)
+        x = self.transformer(x)
+        x = x[:, 1:]
+        x = self.linear_proj(x)
+        boi = self.boi.expand(x.shape[0], -1, -1)
+        eoi = self.eoi.expand(x.shape[0], -1, -1)
+        x = torch.cat((boi, x, eoi), dim=1)
+        return x
diff --git a/PyTorch/built-in/foundation/CogVLM/fintune_cogvlm_change.sh b/PyTorch/built-in/foundation/CogVLM/fintune_cogvlm_change.sh
new file mode 100644
index 0000000000..67e5e93fdf
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/fintune_cogvlm_change.sh
@@ -0,0 +1,133 @@
+#!/bin/bash
+
+# 设置modelzoo项目下cogvlm_utils路径，例如"xxx/cogvlm_utils"，用户需要自行设定
+MODEL_ZOO_SOURCE_DIR="model_zoo路径"
+# 设置CogVLM项目路径，例如"xxx/CogVLM-main"，用户需要自行设定
+COGVLM_SOURCE_DIR="Cogvlm路径"
+# 设置三方件sat路径，为conda环境下三方件安装路径，例如"xxx/python3.8/site-packages/sat"，用户需要自行设定
+SAT_SOURCE_DIR="sat路径"
+
+# 定义一个函数，用于给文件添加modelzoobackup后缀
+rename_file() {
+    local ORIGINAL_FILE_PATH=$1
+    local BACKUP_FILE_PATH
+
+    # 提取原始文件的基本名称和目录路径
+    local FILE_NAME=$(basename "$ORIGINAL_FILE_PATH")
+    local DIRECTORY_PATH=$(dirname "$ORIGINAL_FILE_PATH")
+
+    # 构建带有backup后缀的新文件名
+    local BACKUP_FILE_NAME="${FILE_NAME}.modelzoobackup"
+
+    # 构建新文件的完整路径
+    BACKUP_FILE_PATH="$DIRECTORY_PATH/$BACKUP_FILE_NAME"
+
+    # 检查原始文件是否存在
+    if [ ! -f "$ORIGINAL_FILE_PATH" ]; then
+        echo "Error: Original file '$ORIGINAL_FILE_PATH' does not exist."
+        return 1
+    fi
+
+    # 检查备份文件是否已经存在
+    if [ -e "$BACKUP_FILE_PATH" ]; then
+        echo "Warning: Backup file '$BACKUP_FILE_PATH' already exists."
+        # 如果需要覆盖备份文件，可以取消注释下面的行
+        # rm "$BACKUP_FILE_PATH"
+    fi
+
+    # 使用mv命令创建备份文件
+    mv "$ORIGINAL_FILE_PATH" "$BACKUP_FILE_PATH"
+    echo "Backup created: $BACKUP_FILE_PATH (from $ORIGINAL_FILE_PATH)"
+}
+
+# 定义拷贝文件的函数
+copy_file() {
+    local SOURCE_FILE=$1
+    local DESTINATION_FILE=$2
+
+    # 检查源文件是否存在
+    if [ ! -f "$SOURCE_FILE" ]; then
+        echo "错误：源文件 '$SOURCE_FILE' 不存在。"
+        return 1
+    fi
+
+    # 使用cp命令拷贝文件
+    cp "$SOURCE_FILE" "$DESTINATION_FILE"
+
+    # 检查拷贝是否成功
+    if [ $? -eq 0 ]; then
+        echo "文件拷贝成功，从 '$SOURCE_FILE' 到 '$DESTINATION_FILE'。"
+    else
+        echo "错误：文件拷贝失败。"
+    fi
+}
+
+# 检查源目录是否存在
+if [ ! -d "$MODEL_ZOO_SOURCE_DIR" ]; then
+    echo "Error: Source directory $MODEL_ZOO_SOURCE_DIR does not exist."
+    exit 1
+fi
+
+if [ ! -d "$COGVLM_SOURCE_DIR" ]; then
+    echo "Error: Source directory $COGVLM_SOURCE_DIR does not exist."
+    exit 1
+fi
+
+if [ ! -d "$SAT_SOURCE_DIR" ]; then
+    echo "Error: Source directory $SAT_SOURCE_DIR does not exist."
+    exit 1
+fi
+
+# model_zoo path
+eva_clip_model_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/eva_clip_model.py"
+mixin_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/mixin.py"
+finetune_cogvlm_demo_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/finetune_cogvlm_demo.py"
+triton_rotary_embeddings_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/triton_rotary_embeddings.py"
+transformer_defaults_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/transformer_defaults.py"
+finetune_cogvlm_base_224_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/finetune_cogvlm_base_224.sh"
+layernorm_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/layernorm.py"
+dataset_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/dataset.py"
+evaluate_cogvlm_demo_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/evaluate_cogvlm_demo.py"
+eval_cogvlm_base_224_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/eval_cogvlm_base_224.sh"
+env_npu_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/env_npu.sh"
+
+# cogvlm path
+eva_clip_model_cogvlm_path="$COGVLM_SOURCE_DIR/utils/models/eva_clip_model.py"
+mixin_cogvlm_path="$COGVLM_SOURCE_DIR/utils/models/mixin.py"
+dataset_cogvlm_path="$COGVLM_SOURCE_DIR/utils/utils/dataset.py"
+finetune_cogvlm_demo_cogvlm_path="$COGVLM_SOURCE_DIR/finetune_demo/finetune_cogvlm_demo.py"
+evaluate_cogvlm_demo_cogvlm_path="$COGVLM_SOURCE_DIR/finetune_demo/evaluate_cogvlm_demo.py"
+finetune_demo_cogvlm_path="$COGVLM_SOURCE_DIR/finetune_demo/"
+
+# sat path
+triton_rotary_embeddings_sat_path="$SAT_SOURCE_DIR/model/position_embedding/triton_rotary_embeddings.py"
+transformer_defaults_sat_path="$SAT_SOURCE_DIR/transformer_defaults.py"
+layernorm_sat_path="$SAT_SOURCE_DIR/ops/layernorm.py"
+
+# cogvlm文件改名
+rename_file $eva_clip_model_cogvlm_path
+rename_file $mixin_cogvlm_path
+rename_file $finetune_cogvlm_demo_cogvlm_path
+rename_file $evaluate_cogvlm_demo_cogvlm_path
+rename_file $dataset_cogvlm_path
+
+# sat文件改名
+rename_file $triton_rotary_embeddings_sat_path
+rename_file $transformer_defaults_sat_path
+rename_file $layernorm_sat_path
+
+# cogvlm文件替换
+copy_file $eva_clip_model_model_zoo_path $(dirname "$eva_clip_model_cogvlm_path")
+copy_file $mixin_model_zoo_path $(dirname "$mixin_cogvlm_path")
+copy_file $finetune_cogvlm_demo_model_zoo_path $(dirname "$finetune_cogvlm_demo_cogvlm_path")
+copy_file $dataset_model_zoo_path $(dirname "$dataset_cogvlm_path")
+copy_file $finetune_cogvlm_base_224_model_zoo_path $finetune_demo_cogvlm_path
+copy_file $eval_cogvlm_base_224_model_zoo_path $finetune_demo_cogvlm_path
+copy_file $env_npu_model_zoo_path $finetune_demo_cogvlm_path
+
+# sat文件替换
+copy_file $triton_rotary_embeddings_model_zoo_path $(dirname "$triton_rotary_embeddings_sat_path")
+copy_file $transformer_defaults_model_zoo_path $(dirname "$transformer_defaults_sat_path")
+copy_file $layernorm_model_zoo_path $(dirname "$layernorm_sat_path")
+
+echo "All files copied successfully."
\ No newline at end of file
diff --git a/PyTorch/built-in/foundation/CogVLM/inference_cogvlm_change.sh b/PyTorch/built-in/foundation/CogVLM/inference_cogvlm_change.sh
new file mode 100644
index 0000000000..1758a25b70
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/inference_cogvlm_change.sh
@@ -0,0 +1,108 @@
+#!/bin/bash
+
+# 设置modelzoo项目下cogvlm_utils路径，例如"xxx/cogvlm_utils"，用户需要自行设定
+MODEL_ZOO_SOURCE_DIR="model_zoo路径"
+# 设置CogVLM项目路径，例如"xxx/CogVLM-main"，用户需要自行设定
+COGVLM_SOURCE_DIR="Cogvlm路径"
+# 设置HF权重路径，例如"xxx/models_weight/"，用户需要自行设定
+WEIGHT_SOURCE_DIR="HF权重路径"
+
+# 定义一个函数，用于给文件添加modelzoobackup后缀
+rename_file() {
+    local ORIGINAL_FILE_PATH=$1
+    local BACKUP_FILE_PATH
+
+    # 提取原始文件的基本名称和目录路径
+    local FILE_NAME=$(basename "$ORIGINAL_FILE_PATH")
+    local DIRECTORY_PATH=$(dirname "$ORIGINAL_FILE_PATH")
+
+    # 构建带有backup后缀的新文件名
+    local BACKUP_FILE_NAME="${FILE_NAME}.modelzoobackup"
+
+    # 构建新文件的完整路径
+    BACKUP_FILE_PATH="$DIRECTORY_PATH/$BACKUP_FILE_NAME"
+
+    # 检查原始文件是否存在
+    if [ ! -f "$ORIGINAL_FILE_PATH" ]; then
+        echo "Error: Original file '$ORIGINAL_FILE_PATH' does not exist."
+        return 1
+    fi
+
+    # 检查备份文件是否已经存在
+    if [ -e "$BACKUP_FILE_PATH" ]; then
+        echo "Warning: Backup file '$BACKUP_FILE_PATH' already exists."
+        # 如果需要覆盖备份文件，可以取消注释下面的行
+        # rm "$BACKUP_FILE_PATH"
+    fi
+
+    # 使用mv命令创建备份文件
+    mv "$ORIGINAL_FILE_PATH" "$BACKUP_FILE_PATH"
+    echo "Backup created: $BACKUP_FILE_PATH (from $ORIGINAL_FILE_PATH)"
+}
+
+# 定义拷贝文件的函数
+copy_file() {
+    local SOURCE_FILE=$1
+    local DESTINATION_FILE=$2
+
+    # 检查源文件是否存在
+    if [ ! -f "$SOURCE_FILE" ]; then
+        echo "错误：源文件 '$SOURCE_FILE' 不存在。"
+        return 1
+    fi
+
+    # 使用cp命令拷贝文件
+    cp "$SOURCE_FILE" "$DESTINATION_FILE"
+
+    # 检查拷贝是否成功
+    if [ $? -eq 0 ]; then
+        echo "文件拷贝成功，从 '$SOURCE_FILE' 到 '$DESTINATION_FILE'。"
+    else
+        echo "错误：文件拷贝失败。"
+    fi
+}
+
+# 检查源目录是否存在
+if [ ! -d "$MODEL_ZOO_SOURCE_DIR" ]; then
+    echo "Error: Source directory $MODEL_ZOO_SOURCE_DIR does not exist."
+    exit 1
+fi
+
+if [ ! -d "$COGVLM_SOURCE_DIR" ]; then
+    echo "Error: Source directory $COGVLM_SOURCE_DIR does not exist."
+    exit 1
+fi
+
+if [ ! -d "$SAT_SOURCE_DIR" ]; then
+    echo "Error: Source directory $SAT_SOURCE_DIR does not exist."
+    exit 1
+fi
+
+# model_zoo path
+modeling_cogvlm_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/modeling_cogvlm.py"
+rotary_embeddings_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/rotary_embeddings.py"
+visual_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/visual.py"
+inference_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/inference.py"
+env_npu_model_zoo_path="$MODEL_ZOO_SOURCE_DIR/env_npu.sh"
+
+# hf weight path
+modeling_cogvlm_weight_path="$WEIGHT_SOURCE_DIR/modeling_cogvlm.py"
+visual_weight_path="$WEIGHT_SOURCE_DIR/visual.py"
+
+# cogvlm path
+finetune_demo_cogvlm_path="$COGVLM_SOURCE_DIR/finetune_demo/"
+
+
+# hf 权重文件改名
+rename_file $modeling_cogvlm_weight_path
+rename_file $visual_weight_path
+
+# cogvlm文件替换
+copy_file $modeling_cogvlm_model_zoo_path $(dirname "$modeling_cogvlm_weight_path")
+copy_file $rotary_embeddings_model_zoo_path $(dirname "$modeling_cogvlm_weight_path")
+copy_file $visual_model_zoo_path $(dirname "$modeling_cogvlm_weight_path")
+copy_file $inference_model_zoo_path $finetune_demo_cogvlm_path
+copy_file $env_npu_model_zoo_path $finetune_demo_cogvlm_path
+
+
+echo "All files copied successfully."
\ No newline at end of file
diff --git a/PyTorch/built-in/foundation/CogVLM/requirements.txt b/PyTorch/built-in/foundation/CogVLM/requirements.txt
new file mode 100644
index 0000000000..ef17523c83
--- /dev/null
+++ b/PyTorch/built-in/foundation/CogVLM/requirements.txt
@@ -0,0 +1,24 @@
+numpy
+torchvision==0.16.0
+SwissArmyTransformer==0.4.11
+transformers>=4.36.2
+xformers==0.0.22.post7
+spacy>=3.6.0
+pillow>=10.2.0
+deepspeed>=0.13.1
+seaborn>=0.13.2
+loguru~=0.7.2
+streamlit>=1.31.0
+timm>=0.9.12
+accelerate==0.26.1
+pydantic>=2.6.0
+scipy
+decorator
+streamlit
+jsonlines
+# for openai demo
+openai>=1.11.1
+sse-starlette>=1.8.2
+fastapi>=0.109.0
+httpx>=0.26.0
+uvicorn>=0.27.0
-- 
Gitee


From b5a6fac5dc1806d86ed6ea9ac1c0db0cd78a5ce3 Mon Sep 17 00:00:00 2001
From: gitee_code_template <daiweihua2@huawei.com>
Date: Thu, 28 Mar 2024 16:23:37 +0800
Subject: [PATCH 2/3] =?UTF-8?q?=E6=9B=B4=E6=96=B0readme?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 PyTorch/built-in/foundation/CogVLM/README.md   | 18 +++++++++++++-----
 .../cogvlm_utils/finetune_cogvlm_base_224.sh   |  6 +++---
 .../foundation/CogVLM/requirements.txt         |  2 ++
 3 files changed, 18 insertions(+), 8 deletions(-)

diff --git a/PyTorch/built-in/foundation/CogVLM/README.md b/PyTorch/built-in/foundation/CogVLM/README.md
index e570216f16..4cef1ba0ff 100644
--- a/PyTorch/built-in/foundation/CogVLM/README.md
+++ b/PyTorch/built-in/foundation/CogVLM/README.md
@@ -66,10 +66,13 @@ CogVLM is VISUAL EXPERT FOR LARGE LANGUAGE 是一个多模态视觉-文本模型
 |:---------:|:------:|
 |  PyTorch  | 2.1.0  |
 
-在模型根目录下执行以下命令，安装模型对应PyTorch版本需要的依赖, 需要先安装PTA包。
+1) 安装模型对应PyTorch版本需要的依赖, 需要先安装PTA包。
+2) 下载model_zoo下面的CogVLM相关文件，并依赖其下的requirements.txt进行三方件安装。
 ```shell
 pip install -r requirements.txt
 ```
+3) 下载并安装en_core_web_sm-any-py3-none-any.whl[下载](https://huggingface.co/spacy/en_core_web_sm/tree/main)，
+en_core_web_sm是spaCy 自然语言处理（NLP）工具库中的一种语言模型，专为英语设计。
 ### 准备数据集
 
 1) 微调数据集:
@@ -107,9 +110,6 @@ archive_split
 
 ### 获取预训练权重
 
-1) 下载并安装en_core_web_sm-any-py3-none-any.whl[下载](https://huggingface.co/spacy/en_core_web_sm/tree/main)，
-en_core_web_sm是spaCy 自然语言处理（NLP）工具库中的一种语言模型，专为英语设计。
-
 2) 官方提供微调权重cogvlm-base-224[下载](https://huggingface.co/THUDM/CogVLM/tree/main)。
 
 3) 分词器权重[下载](https://huggingface.co/lmsys/vicuna-7b-v1.5/tree/main)。
@@ -137,9 +137,17 @@ bash finetune_cogvlm_base_224.sh
 
 #### 训练结果
 
+#### 随机性说明
+模型中包含多种随机问题，会影响loss曲线和下游任务，用户可根据需要自行修改，本代码不做更换：
+1) Cogvlm项目路径的utils/utils/dataset.py 中load_data中的all_files是无序的，可以通过以下方式固定：
+```python
+all_files.sort()
+```
+2) 模型本身有确定性问题
+3) SwissArmyTransformer三方件的sat/model/transformer.py文件中embedding_dropout_prob、attention_dropout_prob和output_dropout_prob三个dropout不为0
 ##### 精度
 
-基于Captcha Images数据集训练800步、1600步和2000步验证下游任务，由于模型本身有确定性问题，因此下游任务在评估数据上略有波动：
+基于Captcha Images数据集训练800步、1600步和2000步验证下游任务，由于模型本身有随机性问题，因此下游任务在评估数据上略有波动：
 
 |    芯片    |  800  | 1600   | 2000  | 
 |:--------:|:-----:|--------|-------|
diff --git a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh
index 22b3e9911f..c9f825c48c 100644
--- a/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh
+++ b/PyTorch/built-in/foundation/CogVLM/cogvlm_utils/finetune_cogvlm_base_224.sh
@@ -20,9 +20,9 @@ OPTIONS_SAT="SAT_HOME=~/.sat_models"
 OPTIONS_NCCL="NCCL_DEBUG=info NCCL_IB_DISABLE=0 NCCL_NET_GDR_LEVEL=2 LOCAL_WORLD_SIZE=$NUM_GPUS_PER_WORKER"
 HOST_FILE_PATH="hostfile"
 
-# 用户需要指定train_data和valid_data为实际路径
-train_data="../archive_split/train"
-valid_data="../archive_split/valid"
+# 用户需要指定train_data和valid_data为实际路径，例如"../archive_split/train"和"../archive_split/valid"
+train_data="训练数据路径"
+valid_data="验证数据路径"
 
 gpt_options=" \
        --experiment-name finetune-$MODEL_TYPE \
diff --git a/PyTorch/built-in/foundation/CogVLM/requirements.txt b/PyTorch/built-in/foundation/CogVLM/requirements.txt
index ef17523c83..78af436304 100644
--- a/PyTorch/built-in/foundation/CogVLM/requirements.txt
+++ b/PyTorch/built-in/foundation/CogVLM/requirements.txt
@@ -16,6 +16,8 @@ scipy
 decorator
 streamlit
 jsonlines
+absl-py
+cloudpickle
 # for openai demo
 openai>=1.11.1
 sse-starlette>=1.8.2
-- 
Gitee


From 57b1251e4de1d6796d2343272cc66bffaecb4c2f Mon Sep 17 00:00:00 2001
From: gitee_code_template <daiweihua2@huawei.com>
Date: Thu, 28 Mar 2024 16:38:59 +0800
Subject: [PATCH 3/3] =?UTF-8?q?=E4=BF=AE=E6=94=B9readme?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 PyTorch/built-in/foundation/CogVLM/README.md | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/PyTorch/built-in/foundation/CogVLM/README.md b/PyTorch/built-in/foundation/CogVLM/README.md
index 4cef1ba0ff..b7029a3e22 100644
--- a/PyTorch/built-in/foundation/CogVLM/README.md
+++ b/PyTorch/built-in/foundation/CogVLM/README.md
@@ -67,7 +67,7 @@ CogVLM is VISUAL EXPERT FOR LARGE LANGUAGE 是一个多模态视觉-文本模型
 |  PyTorch  | 2.1.0  |
 
 1) 安装模型对应PyTorch版本需要的依赖, 需要先安装PTA包。
-2) 下载model_zoo下面的CogVLM相关文件，并依赖其下的requirements.txt进行三方件安装。
+2) 下载model_zoo下面的CogVLM相关文件，并依赖该路径下的requirements.txt进行三方件安装。
 ```shell
 pip install -r requirements.txt
 ```
@@ -144,7 +144,7 @@ bash finetune_cogvlm_base_224.sh
 all_files.sort()
 ```
 2) 模型本身有确定性问题
-3) SwissArmyTransformer三方件的sat/model/transformer.py文件中embedding_dropout_prob、attention_dropout_prob和output_dropout_prob三个dropout不为0
+3) SwissArmyTransformer三方件的sat/model/transformer.py文件中的BaseTransformer下embedding_dropout_prob、attention_dropout_prob和output_dropout_prob三个dropout不为0
 ##### 精度
 
 基于Captcha Images数据集训练800步、1600步和2000步验证下游任务，由于模型本身有随机性问题，因此下游任务在评估数据上略有波动：
-- 
Gitee