diff --git a/docs/mindformers/docs/source_zh_cn/guide/deployment.md b/docs/mindformers/docs/source_zh_cn/guide/deployment.md
index dfd9b8f7513127d1477230fbcc861524b77b1bab..650a5b51fe07a916c4958b21efdd82ae63f9abad 100644
--- a/docs/mindformers/docs/source_zh_cn/guide/deployment.md
+++ b/docs/mindformers/docs/source_zh_cn/guide/deployment.md
@@ -2,7 +2,9 @@
 
 [![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/master/resource/_static/logo_source.svg)](https://gitee.com/mindspore/docs/blob/master/docs/mindformers/docs/source_zh_cn/guide/deployment.md)
 
-## MindIE介绍
+## MindIE服务化部署
+
+### MindIE介绍
 
 MindIE，全称Mind Inference Engine，是基于昇腾硬件的高性能推理框架。详情参考[官方介绍文档](https://www.hiascend.com/software/mindie)。
 
@@ -10,9 +12,9 @@ MindSpore Transformers承载在模型应用层MindIE LLM中，通过MindIE Servi
 
 MindIE推理的模型支持度可参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)。
 
-## 环境搭建
+### 环境搭建
 
-### 软件安装
+#### 软件安装
 
 1. 安装MindSpore Transformers
 
@@ -28,7 +30,7 @@ MindIE推理的模型支持度可参考[模型库](https://www.mindspore.cn/mind
    |:-------------------------------------------------------------------------------------------:|:-------------------------------------------------------------------------------------------:|:-------------------------------------------------------------------------------------------:|
    | [1.0.0](https://www.hiascend.com/developer/download/community/result?module=ie%2Bpt%2Bcann) | [8.0.0](https://www.hiascend.com/developer/download/community/result?module=ie%2Bpt%2Bcann) | [8.0.0](https://www.hiascend.com/developer/download/community/result?module=ie%2Bpt%2Bcann) |
 
-### 环境变量
+#### 环境变量
 
 若安装路径为默认路径，可以运行以下命令初始化各组件环境变量。
 
@@ -47,9 +49,9 @@ export MS_SCHED_PORT=8090          # scheduler节点服务端口
 
 > 若机器上有其他卡已启动MindIE，需要注意`MS_SCHED_PORT`参数是否冲突。日志打印中该参数报错的话，替换为其他端口号重新尝试即可。
 
-## 推理服务部署基本流程
+### 推理服务部署基本流程
 
-### 准备模型文件
+#### 准备模型文件
 
 创建一个文件夹，用于存放MindIE后端的指定模型相关文件，如模型tokenizer文件、yaml配置文件和config文件等。
 
@@ -90,9 +92,9 @@ processor:
 
 不同模型的所需文件和配置可能会有差异，详情参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)中具体模型的推理章节。
 
-### 启动MindIE
+#### 启动MindIE
 
-#### 1. 一键启动（推荐）
+##### 1. 一键启动（推荐）
 
 mindformers仓上提供一键拉起MindIE脚本，脚本中已预置环境变量设置和服务化配置，仅需输入模型文件目录后即可快速拉起服务。
 
@@ -142,7 +144,7 @@ tail -f output.log
 | `--ms-sched-port`          | MindSpore scheduler节点服务端口。                                                                                                        | int，可选。默认值：8119         |
 | `--help`                   | 展示脚本入参介绍。                                                                                                                         | str，可选。                     |
 
-#### 2. 自定义启动
+##### 2. 自定义启动
 
 MindIE安装路径均为默认路径`/usr/local/Ascend/.` 如自定义安装路径，同步修改以下例子中的路径。
 
@@ -196,11 +198,11 @@ export MINDIE_LLM_PYTHON_LOG_PATH=/usr/local/Ascend/mindie/latest/mindie-service
 tail -f /usr/local/Ascend/mindie/latest/mindie-service/logs/pythonlog.log
 ```
 
-## MindIE服务化部署及推理示例
+### MindIE服务化部署及推理示例
 
 以下例子各组件安装路径均为默认路径`/usr/local/Ascend/.` ， 模型使用`Qwen1.5-72B`。
 
-### 准备模型文件
+#### 准备模型文件
 
 以Qwen1.5-72B为例，准备模型文件目录。目录结构及配置详情可参考[准备模型文件](#准备模型文件)：
 
@@ -208,9 +210,9 @@ tail -f /usr/local/Ascend/mindie/latest/mindie-service/logs/pythonlog.log
 mkdir -p mf_model/qwen1_5_72b
 ```
 
-### 启动MindIE
+#### 启动MindIE
 
-#### 1. 一键启动（推荐）
+##### 1. 一键启动（推荐）
 
 进入`scripts`目录下，执行mindie启动脚本：
 
@@ -227,7 +229,7 @@ tail -f output.log
 
 当log日志中出现`Daemon start success!`，表示服务启动成功。
 
-#### 2. 自定义启动
+##### 2. 自定义启动
 
 打开mindie-service目录中的config.json，修改server相关配置。
 
@@ -356,7 +358,7 @@ tail -f output.log
 Daemon start success!
 ```
 
-### 请求测试
+#### 请求测试
 
 服务启动成功后，可使用curl命令发送请求验证，样例如下：
 
@@ -370,6 +372,390 @@ curl -w "\ntime_total=%{time_total}\n" -H "Accept: application/json" -H "Content
 {"generated_text":" it is a city with a long history and rich culture....."}
 ```
 
-## 模型列表
+### 模型列表
+
+其他模型的MindIE推理示例可参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)中的各模型的介绍文档。
+
+## vLLM服务化部署
+
+### 概述
+
+vLLM是由加州大学伯克利分校 Sky Computing Lab 创建的社区开源项目，已广泛用于学术研究和工业应用。vLLM 以 Continuous Batching 调度机制和 PagedAttention Key-Value 缓存管理为基础，提供了丰富的推理服务功能，包括投机推理、Prefix Caching、Multi-LoRA 等。同时，vLLM已支持种类丰富的开源大模型，包括 Transformer 类（如LLaMa）、混合专家类（如 DeepSeek）、Embedding 类（如E5-Mistral）、多模态类（如LLaVA）等。由于 vLLM 选用 PyTorch 构建大模型和管理计算存储资源，此前无法使用其部署基于 MindSpore 大模型的推理服务。
+
+vLLM MindSpore 插件（vllm-mindspore）是一个由 [mindspore社区](https://www.mindspore.cn/) 孵化的vLLM后端插件。其将基于 MindSpore 构建的大模型推理能力接入 [vLLM](https://github.com/vllm-project/vllm) ，从而有机整合 MindSpore 和 vLLM 的技术优势，提供全栈开源、高性能、易用的大模型推理解决方案。
+
+MindSpore Transformers 套件的目标是构建一个大模型预训练、微调、评测、推理、部署的全流程开发套件，提供业内主流的 Transformer 类大语言模型（Large Language Models, LLMs）和多模态理解模型（Multimodal Models, MMs）。
+
+![框架图](../vllm-architecture.png)
+
+vLLM MindSpore 采用 vLLM 社区推荐的插件机制，实现能力注册。MindSpore Transformers 作为配套的大模型套件，被集成在 vLLM MindSpore 的插件里，旨在为用户提供高性能且易用的模型库。
+
+### 环境搭建
+
+在本章节中，我们推荐用docker创建的方式，以快速部署vLLM MindSpore环境，以下是部署docker的步骤介绍。
+
+#### 拉取镜像
+
+用户可执行以下命令，拉取 vLLM MindSpore 的 docker 镜像：
+
+```bash
+docker pull hub.oepkgs.net/oedeploy/openeuler/aarch64/mindspore:latest
+```
+
+更换命令中的镜像的 tag，可以拉取其他的镜像。拉取过程中，用户将看到docker镜像各layer的拉取进度。
+
+#### 新建容器
+
+用户在完成拉取镜像后，DOCKER_NAME与IMAGE_NAME为容器名与镜像名，并执行以下命令新建容器。
+
+```bash
+export DOCKER_NAME=vllm-mindspore-container  # your container name
+export IMAGE_NAME=hub.oepkgs.net/oedeploy/openeuler/aarch64/mindspore:latest  # your image name
+
+docker run -itd --name=${DOCKER_NAME} --ipc=host --network=host --privileged=true \
+        --device=/dev/davinci0 \
+        --device=/dev/davinci1 \
+        --device=/dev/davinci2 \
+        --device=/dev/davinci3 \
+        --device=/dev/davinci4 \
+        --device=/dev/davinci5 \
+        --device=/dev/davinci6 \
+        --device=/dev/davinci7 \
+        --device=/dev/davinci_manager \
+        --device=/dev/devmm_svm \
+        --device=/dev/hisi_hdc \
+        -v /usr/local/sbin/:/usr/local/sbin/ \
+        -v /var/log/npu/slog/:/var/log/npu/slog \
+        -v /var/log/npu/profiling/:/var/log/npu/profiling \
+        -v /var/log/npu/dump/:/var/log/npu/dump \
+        -v /var/log/npu/:/usr/slog \
+        -v /etc/hccn.conf:/etc/hccn.conf \
+        -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+        -v /usr/local/dcmi:/usr/local/dcmi \
+        -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+        -v /etc/ascend_install.info:/etc/ascend_install.info \
+        -v /etc/vnpu.cfg:/etc/vnpu.cfg \
+        --shm-size="250g" \
+        ${IMAGE_NAME} \
+        bash
+```
+
+#### 进入容器
+
+用户在完成新建容器后，使用已定义的环境变量 DOCKER_NAME，启动并进入容器：
+
+```bash
+docker exec -it $DOCKER_NAME bash
+```
+
+### 快速体验
+
+用户在环境部署完毕后，在运行模型前，需要准备模型文件，用户可通过模型下载章节的指引作模型准备，在环境变量设置后，可采用离线推理或在线服务的方式，下面以 Qwen3模型为例进行模型体验。
+
+#### 模型下载
+
+首先需要先准备好Qwen3-32B 的模型权重文件，关于模型权重文件的下载可参考：[模型下载](https://docs.qq.com/doc/DU2NZRkNKRWVtY1Zo?u=824fe16231b14a86a7ea9bd02cdf0e26)
+
+#### 环境变量
+
+vLLM在线推理面向实时服务场景，依托动态批处理和OpenAI兼容API，具有高并发、低延迟的特点，适用于企业级高并发应用。
+vLLM MindSpore 可使用 OpenAI 的 API 协议，进行在线服务部署。以下是以Qwen3模型为例，介绍模型的启动服务，并发送请求，得到在线服务的推理结果。
+
+##### 多卡并行
+
+**启动服务**
+
+使用模型Qwen/Qwen3-32B，并用如下命令拉起vLLM服务：
+
+```bash
+python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/path/to/Qwen3-32B" --trust-remote-code  --max-num-seqs --max-num-seqs $MAX_NUM_SEQS --tensor-parallel-size $TENSOR_PARALLEL_SIZE --max-model-len $MAX_MODEL_LEN
+```
+
+其中：
+
+- MAX_NUM_SEQS：最大Batch数
+- TENSOR_PARALLEL_SIZE：为用户指定的卡数，当值设为1时即为单卡推理。
+- MAX_MODEL_LEN：为模型最大输出token数。
+
+更多启动参数配置可参考：[vLLM CLI参数](https://docs.vllm.ai/en/latest/configuration/engine_args.html#cacheconfig)。
+
+若服务成功拉起，则可以获得类似的执行结果：
+
+```bash
+INFO:     Started server process [200492]
+INFO:     Waiting for application startup.
+INFO:     Application startup complete.
+```
+
+另外，日志中还会打印出服务的性能数据信息，如：
+
+```bash
+Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg gereration throughput: 0.0 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.0%, Prefix cache hit rate: 0.0%
+```
+
+**发送数据**
+
+使用如下命令发送请求。其中prompt字段为模型输入：
+
+```baah
+curl http://localhost:8094/v1/completions -H "Content-Type: application/json" -d '{
+"model": "/path/to/Qwen3-32B/",
+"prompt": "介绍一下上海",
+"temperature": 0.6,
+"top_p": 0.95,
+"top_k": 20,
+"min_p": 0,
+"max_tokens": 4096,
+"presence_penalty": 1.05
+}'
+```
+
+以上请求中的参数：
+
+- model：指定使用模型的路径
+- prompt：模型的文本提示
+- max_tokens：限制生成内容的最大token数量
+- temperature：控制生成随机性，值越大随机性越高
+- top_p：概率阈值采样，表示仅从累积概率大于等于设定值的token中采样
+- top_k：候选token数量限制，表示每一步仅从概率最高的设定值个token中采样
+- min_p：最小概率阈值过滤，表示保留概率大于设定值的所有token
+- presence_penalty：抑制重复内容，用于降低重复概率
+
+若请求处理成功，将获得如下的推理结果：
+
+```bash
+{
+    "id": "cmpl-20a3f08873284b60a40da68e3ce68ae8",
+    "object": "text_completion",
+    "created": 1753946589,
+    "model": "/data/checkpoint/Qwen3-32B-250426/",
+    "choices": [{
+        "index": 0,
+        "text": "的天气情况。 上海位于中国东部沿海地区，属于亚热带季风气候，四季分明，降水充沛。以下是上海各季节的天气特点：\n\n1. **春季（3月-5月）**  \n   - 气温逐渐回暖，但波动较大，常有“倒春寒”现象。  \n   - 降水增多，空气潮湿，偶尔伴有雷阵雨。  \n\n2. **夏季（6月-8月）**  \n   - 炎热多雨，平均气温在28℃至35℃之间，极端高温可达40℃以上。  \n   - 受副热带高压影响，湿度高，体感闷热。  \n   - 常有台风过境，带来强风和暴雨。  \n\n3. **秋季（9月-11月）**  \n   - 天气凉爽干燥，昼夜温差加大。  \n   - 降水减少，阳光充足，是旅游和户外活动的黄金季节。  \n\n4. **冬季（12月-2月）**  \n   - 寒冷干燥，平均气温在4℃至10℃之间，偶有霜冻或小雪。  \n   - 受冷空气南下影响，可能出现大风降温天气。  \n\n**实时天气查询建议**：由于天气变化较快，建议出行前通过气象网站（如中国天气网）或APP（如墨迹天气）获取最新预报，特别是关注台风、暴雨等极端天气预警。  \n\n希望这些信息对您有所帮助！ 🌦️",
+        "logprobs": null,
+        "finish_reason": "stop",
+        "stop_reason": null,
+        "prompt_logprobs": null
+    }],
+    "usage": {
+        "prompt_tokens": 2,
+        "total_tokens": 330,
+        "completion_tokens": 328,
+        "prompt_tokens_details": null
+    }
+}
+```
+
+##### 多机并行
+
+vLLM 通过 Ray 对多个节点资源进行管理和运行。该样例对应张量并行（TP）为16的场景。
+
+**设置环境变量**
+
+环境变量必须设置在 Ray 创建集群前，且当环境有变更时，需要通过 ray stop 将主从节点集群停止，并重新创建集群，否则环境变量将不生效。这里的环境变量较环境变量章节多了 Ray 需要的一些环境变量。
+分别在主从节点配置如下环境变量：
+
+```bash
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+
+export GLOO_SOCKET_IFNAME=enp189s0f0
+export HCCL_SOCKET_IFNAME=enp189s0f0
+export TP_SOCKET_IFNAME=enp189s0f0
+export MS_ENABLE_LCCL=off
+export HCCL_OP_EXPANSION_MODE=AIV
+export MS_ALLOC_CONF=enable_vmm:true
+export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
+export vLLM_MODEL_BACKEND=MindFormers
+export MINDFORMERS_MODEL_CONFIG=/path/to/yaml # 非MCore模型需要
+```
+
+环境变量说明：
+
+- GLOO_SOCKET_IFNAME: GLOO后端端口。可通过ifconfig查找ip对应网卡的网卡名。
+- HCCL_SOCKET_IFNAME: 配置HCCL端口。可通过ifconfig查找ip对应网卡的网卡名。
+- TP_SOCKET_IFNAME: 配置TP端口。可通过ifconfig查找ip对应网卡的网卡名。
+- MS_ENABLE_LCCL: 关闭LCCL，使能HCCL通信。
+- HCCL_OP_EXPANSION_MODE: 配置通信算法的编排展开位置为Device侧的AI Vector Core计算单元。
+- MS_ALLOC_CONF: 设置内存策略。可参考https://www.mindspore.cn/docs/zh-CN/master/api_python/env_var_list.html。
+- ASCEND_RT_VISIBLE_DEVICES: 配置每个节点可用device id。用户可使用npu-smi info命令进行查询。
+- vLLM_MODEL_BACKEND：所运行的模型后端。
+
+**启动 Ray 进行多节点集群管理**
+
+在 Ascend 上，需要额外安装 pyACL 包来适配 Ray。且所有节点的 CANN 依赖版本需要保持一致。
+
+pyACL (Python Ascend Computing Language) 通过 CPython 封装了 AscendCL 对应的 API 接口，使用接口可以管理 Ascend AI 处理器和对应的计算资源。
+
+在对应环境中，获取相应版本的 Ascend-cann-nnrt 安装包后，解压出 pyACL 依赖包并单独安装，并将安装路径添加到环境变量中：
+
+```bash
+./Ascend-cann-nnrt_8.0.RC1_linux-aarch64.run --noexec --extract=./
+cd ./run_package
+./Ascend-pyACL_8.0.RC1_linux-aarch64.run --full --install-path=<install_path>
+export PYTHONPATH=<install_path>/CANN-<VERSION>/python/site-packages/:$PYTHONPATH
+```
+
+若安装过程有权限问题，可以使用以下命令加权限：
+
+```bash
+chmod +x Ascend-pyACL_8.0.RC1_linux-aarch64.run
+```
+
+在 Ascend 的首页中可以下载 Ascend 运行包。如, 可以下载 [8.0.RC1.beta1](https://www.hiascend.cn/developer/download/community/result?module=cann&version=8.0.RC1.beta1) 对应版本的运行包。
+
+接下来通过 Ray 对多个节点资源进行管理和运行。
+
+**多节点间集群**
+
+多节点集群管理前，需要检查各节点的 hostname 是否各异，如果存在相同的，需要通过 hostname <new-host-name> 设置不同的 hostname。
+
+1.启动主节点 ray start --head --port=<port-to-ray>，启动成功后，会提示从节点的连接方式。如在 ip 为 192.5.5.5 的环境中，通过 ray start --head --port=6379，提示如下：
+
+```bash
+Local node IP: 192.5.5.5
+
+--------------------
+Ray runtime started.
+--------------------
+
+Next steps
+  To add another node to this Ray cluster, run
+    ray start --address='192.5.5.5:6379'
+
+  To connect to this Ray cluster:
+    import ray
+    ray.init()
+
+  To terminate the Ray runtime, run
+    ray stop
+
+  To view the status of the cluster, use
+    ray status
+```
+
+2.从节点连接主节点 ray start --address=<head_node_ip>:<port>。
+3.通过 ray status 查询集群状态，显示的NPU总数为节点总合，则表示集群成功。
+
+```bash
+Local node IP: 192.5.5.5
+[2025-07-31 10:56:29,844 W 109 109] global_state_accessor.cc:429: Retrying to get node with node ID 71e5ee0a18e3e3afbfc4ceec8056a73b30a5f3405964b1b3d28557ea
+
+--------------------
+Ray runtime started.
+--------------------
+
+To terminate the Ray runtime, run
+  ray stop
+```
+
+**启动服务示例**
+
+该示例以 Qwen3-235B-A22B-Instruct-2507 为例，运行张量并行（TP）为16的场景，运行在两台机器上。
+
+```bash
+python -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model /path/to/ --trust-remote-code --enable-prefix-caching --tensor-parallel-size 16 --max-num-seqs 256 --max-model-len 8192 --block-size 32 --gpu-memory-utilization 0.9 --port 8000 --distributed-executor-backend=ray
+```
+
+以上运行命令中 --distributed-executor-backend=ray 用于设置分布式计算的执行后端（executor backend）为Ray。
+
+**发起请求**
+
+```bash
+curl http://localhost:8094/v1/completions -H "Content-Type: application/json" -d '{"model": "/path/to/Qwen3-235B-A22B-Instruct-2507/", "prompt": "哲学是什么", "temperature": 0, "max_tokens": 256, "top_p": 1.0, "top_k": 1, "repetition_penalty":1.0}'
+```
+
+**请求响应**
+
+```bash
+{
+    "id": "cmpl-deff2881f0ff437f9d4060f2237f6d9c",
+    "object": "text_completion",
+    "created": 1753962391,
+    "model": "/data/Qwen3-235B-A22B-Instruct-2507/",
+    "choices": [{
+        "index": 0,
+        "text": "？哲学家们如何思考问题？\n哲学是一门探讨基本问题的学科，这些问题包括存在、知识、真理、道德、美、心灵、语言等等。哲学家们试图通过理性思考和逻辑推理来回答这些问题，并且常常会提出新的问题。\n\n哲学家们思考问题的方式通常包括以下几个方面：\n\n1. 提出问题：哲学家们会提出一些基本的问题，例如“什么是真理？”、“我们如何知道我们所知道的是真实的？”等等。\n\n2. 分析概念：哲学家们会分析一些基本的概念，例如“自由意志”、“意识”、“自我”等等，以更好地理解它们的意义和作用。\n\n3. 逻辑推理：哲学家们会使用逻辑推理来构建论证，以支持或反驳某种观点。他们会考虑前提是否合理、结论是否必然等等。\n\n4. 反思和批判：哲学家们会反思自己的观点和其他人的观点，并对其进行批判。他们会考虑不同的观点之间的关系，以及它们的优点和缺点。\n\n5. 探索可能性：哲学家们会探索不同的可能性，例如不同的世界观、价值观等等。他们会考虑这些可能性的意义和影响。\n\n哲学家们思考问题的方式是多样的，但通常都强调理性思考和逻辑推理的重要性。他们",
+        "logprobs": null,
+        "finish_reason": "length",
+        "stop_reason": null,
+        "prompt_logprobs": null
+    }],
+    "usage": {
+        "prompt_tokens": 2,
+        "total_tokens": 258,
+        "completion_tokens": 256,
+        "prompt_tokens_details": null
+    }
+}
+```
+
+##### 离线推理
+
+vLLM的离线推理（Offline Batched Inference）专为高效处理大规模批量请求而设计，尤其适用于非实时、数据密集型的模型推理场景。
+以 Qwen3-8B 为例，用户可以使用如下 Python 脚本，调用vLLM的LLM接口，进行模型的离线推理：
+
+```bash
+import vllm_mindspore # Add this line on the top of script.
+from vllm import LLM, SamplingParams
+
+# Sample prompts.
+prompts = [
+    "I am",
+    "Today is",
+    "Llama is"
+]
+
+# Create a sampling params object.
+sampling_params = SamplingParams(temperature=0.0, top_p=0.95)
+
+# Create a LLM
+llm = LLM(model="/path/to/Qwen3-8B")
+# Generate texts from the prompts. The output is a list of RequestOutput objects
+# that contain the prompt, generated text, and other information.
+outputs = llm.generate(prompts, sampling_params)
+# Print the outputs.
+for output in outputs:
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    print(f"Prompt: {prompt!r}. Generated text: {generated_text!r}")
+```
+
+若成功执行，则可以获得类似的执行结果：
+
+```bash
+Prompt: 'I am'. Generated text: ' trying to find the value of the integral $\\int_{0}^{\\in'
+Prompt: 'Today is'. Generated text: ' the day of the big sale at the mall. The first 100'
+Prompt: 'Llama is'. Generated text: ' a series of open-source large language models developed by Meta. The first version,'
+```
+
+#### 特性支持
+
+目前列举的是已经支持的特性，更多特性正在支持中。
+
+|特性|状态|开启|关闭|
+|--|--|--|--|
+|Automatic Prefix Caching|已支持|在线服务：--enable-prefix-caching 离线服务：enable_prefix_caching=True|在线服务：--no-enable-prefix-caching 离线服务：enable_prefix_caching=False|
+|Chunked Prefill|已支持|在线服务：--enable-chunked-prefill 离线服务：enable_chunked_prefill=True|在线服务：--no-enable-prefix-caching 离线服务：enable_prefix_caching=False|
+|Multi LoRA|测试中|--|--|
+
+### 附录
+
+#### 版本配套信息
+
+版本配套：https://www.mindspore.cn/vllm_mindspore/docs/zh-CN/master/getting_started/installation/installation.html#%E7%89%88%E6%9C%AC%E9%85%8D%E5%A5%97
+
+#### 模型支持列表
+
+|模型|Mcore新架构|状态|下载链接|
+|-|-|-|-|
+|Qwen3-32B|是|已支持|[Qwen3-32B](https://modelers.cn/models/MindSpore-Lab/Qwen3-32B)|
+|Qwen3-235B-A22B|是|已支持|[Qwen3-235B-A22B](https://huggingface.co/Qwen/Qwen3-235B-A22B)|
+|Qwen3|是|测试中|[Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B)、 [Qwen3-1.7B](https://huggingface.co/Qwen/Qwen3-1.7B)、 [Qwen3-4B](https://huggingface.co/Qwen/Qwen3-4B)、 [Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)、 [Qwen3-14B](https://modelers.cn/models/MindSpore-Lab/Qwen3-14B)|
+|Qwen3-MOE|是|测试中|[Qwen3-30B-A3](https://modelers.cn/models/MindSpore-Lab/Qwen3-30B-A3B-Instruct-2507)|
+|deepSeek-V3|是|测试中|[deepSeek-V3](https://modelers.cn/models/MindSpore-Lab/DeepSeek-V3)|
+|Qwen2.5|否|已支持|[Qwen2.5-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct)、 [Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct)、 [Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct)、 [Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)、 [Qwen2.5-14B-Instruct](https://huggingface.co/Qwen/Qwen2.5-14B-Instruct)、 [Qwen2.5-32B-Instruct](https://huggingface.co/Qwen/Qwen2.5-32B-Instruct)、 [Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)|
+
+#### 环境变量
 
-其他模型的MindIE推理示例可参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)中的各模型的介绍文档。
\ No newline at end of file
+vLLM环境变量：https://docs.vllm.ai/en/latest/configuration/env_vars.html
+vLLM MindSpore环境变量：https://gitee.com/mindspore/docs/blob/master/docs/vllm_mindspore/docs/source_zh_cn/user_guide/environment_variables/environment_variables.md
diff --git a/docs/mindformers/docs/source_zh_cn/vllm-architecture.png b/docs/mindformers/docs/source_zh_cn/vllm-architecture.png
new file mode 100644
index 0000000000000000000000000000000000000000..4f9b3f5f890e87ad2bf5a67cb887854c25694452
Binary files /dev/null and b/docs/mindformers/docs/source_zh_cn/vllm-architecture.png differ