diff --git a/docs/vllm_mindspore/docs/source_zh_cn/getting_started/tutorials/qwen3_32b_multiNPU_300I_Duo/qwen3_32b_multiNPU_300I_Duo.md b/docs/vllm_mindspore/docs/source_zh_cn/getting_started/tutorials/qwen3_32b_multiNPU_300I_Duo/qwen3_32b_multiNPU_300I_Duo.md
new file mode 100644
index 0000000000000000000000000000000000000000..7d94f1c5568214eb2f7419dd6220548a74cd5f24
--- /dev/null
+++ b/docs/vllm_mindspore/docs/source_zh_cn/getting_started/tutorials/qwen3_32b_multiNPU_300I_Duo/qwen3_32b_multiNPU_300I_Duo.md
@@ -0,0 +1,208 @@
+# 多卡推理（Qwen3-32B-300I-Duo）
+
+[![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/master/resource/_static/logo_source.svg)](https://gitee.com/mindspore/docs/blob/master/docs/vllm_mindspore/docs/source_zh_cn/getting_started/tutorials/qwen3_32b_multiNPU/qqwen3_32b_multiNPU_300I_Duo.md )
+
+本文档将为用户介绍在300I-Duo后端使用vLLM-MindSpore插件进行单节点多卡的推理流程。以[Qwen3-32B](https://huggingface.co/Qwen/Qwen3-32B)模型为例，用户通过以下[docker安装](#docker安装)章节，或[安装指南](../../installation/installation.md#安装指南)进行环境配置，并[下载模型权重](#下载模型权重)。在[设置环境变量](#设置环境变量)之后，可部署[在线推理](#在线推理)，以体验单节点多卡的推理功能。
+
+## docker安装
+
+在本章节中，我们推荐用docker创建的方式，以快速部署vLLM-MindSpore插件环境，以下是部署docker的步骤介绍：
+
+### 构建镜像
+
+用户可执行以下命令，拉取vLLM-MindSpore插件代码仓库，并构建镜像：
+
+```bash
+git clone https://gitee.com/mindspore/vllm-mindspore.git
+bash build_image.sh
+```
+
+构建成功后，用户可以得到以下信息：
+
+```text
+Successfully built e40bcbeae9fc
+Successfully tagged vllm_ms_20250726:latest
+```
+
+其中，`e40bcbeae9fc`为镜像id，`vllm_ms_20250726:latest`为镜像名与tag。用户可执行以下命令，确认docker镜像创建成功：
+
+```bash
+docker images
+```
+
+### 新建容器
+
+用户在完成[构建镜像](#构建镜像)后，设置`DOCKER_NAME`与`IMAGE_NAME`为容器名与镜像名，并执行以下命令新建容器：
+
+```bash
+export DOCKER_NAME=vllm-mindspore-container  # your container name
+export IMAGE_NAME=vllm_ms_20250726:latest  # your image name
+
+docker run -itd --name=${DOCKER_NAME} --ipc=host --network=host --privileged=true \
+        --device=/dev/davinci0 \
+        --device=/dev/davinci1 \
+        --device=/dev/davinci2 \
+        --device=/dev/davinci3 \
+        --device=/dev/davinci4 \
+        --device=/dev/davinci5 \
+        --device=/dev/davinci6 \
+        --device=/dev/davinci7 \
+        --device=/dev/davinci_manager \
+        --device=/dev/devmm_svm \
+        --device=/dev/hisi_hdc \
+        -v /usr/local/sbin/:/usr/local/sbin/ \
+        -v /var/log/npu/slog/:/var/log/npu/slog \
+        -v /var/log/npu/profiling/:/var/log/npu/profiling \
+        -v /var/log/npu/dump/:/var/log/npu/dump \
+        -v /var/log/npu/:/usr/slog \
+        -v /etc/hccn.conf:/etc/hccn.conf \
+        -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
+        -v /usr/local/dcmi:/usr/local/dcmi \
+        -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
+        -v /etc/ascend_install.info:/etc/ascend_install.info \
+        -v /etc/vnpu.cfg:/etc/vnpu.cfg \
+        --shm-size="250g" \
+        ${IMAGE_NAME} \
+        bash
+```
+
+新建容器后成功后，将返回容器ID。用户可执行以下命令，确认容器是否创建成功：
+
+```bash
+docker ps
+```
+
+### 进入容器
+
+用户在完成[新建容器](#新建容器)后，使用已定义的环境变量`DOCKER_NAME`，启动并进入容器：
+
+```bash
+docker exec -it $DOCKER_NAME bash
+```
+
+## 下载模型权重
+
+用户可采用[Python工具下载](#python工具下载)或[git-lfs工具下载](#git-lfs工具下载)两种方式，进行模型下载。
+
+### Python工具下载
+
+执行以下 Python 脚本，从[Huggingface Face社区](https://huggingface.co/)下载 [Qwen3-32B](https://huggingface.co/Qwen/Qwen3-32B) 权重及文件：
+
+```python
+from openmind_hub import snapshot_download
+snapshot_download(
+    repo_id="Qwen/Qwen3-32B",
+    local_dir="/path/to/save/Qwen3-32B",
+    local_dir_use_symlinks=False
+)
+```
+
+其中`local_dir`为模型保存路径，由用户指定，请确保该路径下有足够的硬盘空间。
+
+### git-lfs工具下载
+
+执行以下代码，以确认[git-lfs](https://git-lfs.com)工具是否可用：
+
+```bash
+git lfs install
+```
+
+如果可用，将获得如下返回结果：
+
+```text
+Git LFS initialized.
+```
+
+若工具不可用，则需要先安装[git-lfs](https://git-lfs.com)，可参考[FAQ](../../../faqs/faqs.md)章节中关于[git-lfs安装](../../../faqs/faqs.md#git-lfs安装)的阐述。
+
+工具确认可用后，执行以下命令，下载权重：
+
+```bash
+git clone https://huggingface.co/Qwen/Qwen3-32B
+```
+
+## 设置环境变量
+
+以[Qwen3-32B](https://huggingface.co/Qwen/Qwen3-32B)为例，以下环境变量用于设置后端以及模型相关的YAML文件。
+其中，关于[Qwen3-32B](https://huggingface.co/Qwen/Qwen3-32B)的环境变量如下：
+
+```bash
+#set environment variables
+export vLLM_MODEL_BACKEND=MindFormers # use MindSpore TransFormers as model backend.
+export MINDFORMERS_MODEL_CONFIG=$YAML_PATH # Set the corresponding MindSpore Transformers model's YAML file.
+```
+
+以下是对上述环境变量的解释：
+
+- `vLLM_MODEL_BACKEND`：所运行的模型后端。目前vLLM-MindSpore插件所支持的模型与模型后端，可在[模型支持列表](../../../user_guide/supported_models/models_list/models_list.md)中进行查询。
+- `MINDFORMERS_MODEL_CONFIG`：模型配置文件。用户可以在[MindSpore Transformers工程](https://gitee.com/mindspore/mindformers/tree/master/research/qwen3)中，找到对应模型的yaml文件。以Qwen3-32B为例，则其yaml文件为[predict_qwen3_32b_instruct.yaml](https://gitee.com/mindspore/mindformers/blob/master/research/qwen3/predict_qwen3_32b.yaml) 。
+
+用户可通过`npu-smi info`查看显存占用情况，并可以使用如下环境变量，设置用于推理的计算卡。以下例子为假设用户使用4,5,6,7卡进行推理：
+
+```bash
+export ASCEND_RT_VISIBLE_DEVICES=4,5,6,7
+```
+
+## 在线推理
+
+vLLM-MindSpore插件可使用OpenAI的API协议，部署为在线推理。以下是在线推理的拉起流程。以下是以[Qwen3-32B](https://huggingface.co/Qwen/Qwen3-32B) 为例，介绍模型的[启动服务](#启动服务)，并[发送请求](#发送请求)，得到在线推理的推理结果。
+
+### 启动服务
+
+用如下命令拉起服务：
+
+```bash
+export TENSOR_PARALLEL_SIZE=4
+export MAX_MODEL_LEN=1024
+python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "Qwen/3-32B" --trust_remote_code --tensor-parallel-size $TENSOR_PARALLEL_SIZE --max-model-len $MAX_MODEL_LEN
+```
+
+其中，`TENSOR_PARALLEL_SIZE`为用户指定的卡数，`MAX_MODEL_LEN`为模型最大输出token数。
+
+用户可以通过`--model`参数，指定模型保存的本地路径。若服务成功拉起，则可以获得类似的执行结果：
+
+```text
+INFO:   Started server process [6363]
+INFO:   Waiting for application startup.
+INFO:   Application startup complete.
+```
+
+另外，日志中还会打印出服务的性能数据信息，如：
+
+```text
+Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg gereration throughput: 0.0 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.0%, Prefix cache hit rate: 0.0%
+```
+
+### 发送请求
+
+使用如下命令发送请求。其中`prompt`字段为模型输入：
+
+```bash
+curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{"model": "Qwen/Qwen3-32B", "prompt": "I am", "max_tokens": 20, "temperature": 0}'
+```
+
+其中，用户需确认`"model"`字段与启动服务中`--model`一致，请求才能成功匹配到模型。若请求处理成功，将获得以下推理结果：
+
+```text
+{
+    "id":"cmpl-11fe2898c77d4ff18c879f57ae7aa9ca","object":"text_completion",
+    "create":1748568696,
+    "model":"Qwen3-32B",
+    "choices":[
+        {
+            "index":0,
+            "text":"trying to create a virtual environment in Python using venv, but I am encountering some issues with setting",
+            "logprobs":null,
+            "finish_reason":"length",
+            "stop_reason":null,
+            "prompt_logprobs":null
+        }
+    ],
+    "usage":{
+        "prompt_tokens":2,
+        "total_tokens":22,
+        "completion_tokens":20,
+        "prompt_tokens_details":null
+    }
+}
+```
diff --git a/docs/vllm_mindspore/docs/source_zh_cn/index.rst b/docs/vllm_mindspore/docs/source_zh_cn/index.rst
index 921322682e81d226bf2e3a76f0b8a8a4916ac841..572104b1fd9e5a47c927a46ee7eba53169fb4ddd 100644
--- a/docs/vllm_mindspore/docs/source_zh_cn/index.rst
+++ b/docs/vllm_mindspore/docs/source_zh_cn/index.rst
@@ -107,6 +107,7 @@ Apache 许可证 2.0，如  `LICENSE <https://gitee.com/mindspore/vllm-mindspore
    getting_started/tutorials/qwen2.5_7b_singleNPU/qwen2.5_7b_singleNPU
    getting_started/tutorials/qwen2.5_32b_multiNPU/qwen2.5_32b_multiNPU
    getting_started/tutorials/deepseek_parallel/deepseek_r1_671b_w8a8_dp4_tp4_ep4
+   getting_started/tutorials/qwen3_32b_multiNPU_300I_Duo/qwen3_32b_multiNPU_300I_Duo
 
 .. toctree::
    :glob: