diff --git a/docs/mindformers/docs/source_zh_cn/guide/deployment.md b/docs/mindformers/docs/source_zh_cn/guide/deployment.md index dfd9b8f7513127d1477230fbcc861524b77b1bab..650a5b51fe07a916c4958b21efdd82ae63f9abad 100644 --- a/docs/mindformers/docs/source_zh_cn/guide/deployment.md +++ b/docs/mindformers/docs/source_zh_cn/guide/deployment.md @@ -2,7 +2,9 @@ [![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/master/resource/_static/logo_source.svg)](https://gitee.com/mindspore/docs/blob/master/docs/mindformers/docs/source_zh_cn/guide/deployment.md) -## MindIE介绍 +## MindIE服务化部署 + +### MindIE介绍 MindIE,全称Mind Inference Engine,是基于昇腾硬件的高性能推理框架。详情参考[官方介绍文档](https://www.hiascend.com/software/mindie)。 @@ -10,9 +12,9 @@ MindSpore Transformers承载在模型应用层MindIE LLM中,通过MindIE Servi MindIE推理的模型支持度可参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)。 -## 环境搭建 +### 环境搭建 -### 软件安装 +#### 软件安装 1. 安装MindSpore Transformers @@ -28,7 +30,7 @@ MindIE推理的模型支持度可参考[模型库](https://www.mindspore.cn/mind |:-------------------------------------------------------------------------------------------:|:-------------------------------------------------------------------------------------------:|:-------------------------------------------------------------------------------------------:| | [1.0.0](https://www.hiascend.com/developer/download/community/result?module=ie%2Bpt%2Bcann) | [8.0.0](https://www.hiascend.com/developer/download/community/result?module=ie%2Bpt%2Bcann) | [8.0.0](https://www.hiascend.com/developer/download/community/result?module=ie%2Bpt%2Bcann) | -### 环境变量 +#### 环境变量 若安装路径为默认路径,可以运行以下命令初始化各组件环境变量。 @@ -47,9 +49,9 @@ export MS_SCHED_PORT=8090 # scheduler节点服务端口 > 若机器上有其他卡已启动MindIE,需要注意`MS_SCHED_PORT`参数是否冲突。日志打印中该参数报错的话,替换为其他端口号重新尝试即可。 -## 推理服务部署基本流程 +### 推理服务部署基本流程 -### 准备模型文件 +#### 准备模型文件 创建一个文件夹,用于存放MindIE后端的指定模型相关文件,如模型tokenizer文件、yaml配置文件和config文件等。 @@ -90,9 +92,9 @@ processor: 不同模型的所需文件和配置可能会有差异,详情参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)中具体模型的推理章节。 -### 启动MindIE +#### 启动MindIE -#### 1. 一键启动(推荐) +##### 1. 一键启动(推荐) mindformers仓上提供一键拉起MindIE脚本,脚本中已预置环境变量设置和服务化配置,仅需输入模型文件目录后即可快速拉起服务。 @@ -142,7 +144,7 @@ tail -f output.log | `--ms-sched-port` | MindSpore scheduler节点服务端口。 | int,可选。默认值:8119 | | `--help` | 展示脚本入参介绍。 | str,可选。 | -#### 2. 自定义启动 +##### 2. 自定义启动 MindIE安装路径均为默认路径`/usr/local/Ascend/.` 如自定义安装路径,同步修改以下例子中的路径。 @@ -196,11 +198,11 @@ export MINDIE_LLM_PYTHON_LOG_PATH=/usr/local/Ascend/mindie/latest/mindie-service tail -f /usr/local/Ascend/mindie/latest/mindie-service/logs/pythonlog.log ``` -## MindIE服务化部署及推理示例 +### MindIE服务化部署及推理示例 以下例子各组件安装路径均为默认路径`/usr/local/Ascend/.` , 模型使用`Qwen1.5-72B`。 -### 准备模型文件 +#### 准备模型文件 以Qwen1.5-72B为例,准备模型文件目录。目录结构及配置详情可参考[准备模型文件](#准备模型文件): @@ -208,9 +210,9 @@ tail -f /usr/local/Ascend/mindie/latest/mindie-service/logs/pythonlog.log mkdir -p mf_model/qwen1_5_72b ``` -### 启动MindIE +#### 启动MindIE -#### 1. 一键启动(推荐) +##### 1. 一键启动(推荐) 进入`scripts`目录下,执行mindie启动脚本: @@ -227,7 +229,7 @@ tail -f output.log 当log日志中出现`Daemon start success!`,表示服务启动成功。 -#### 2. 自定义启动 +##### 2. 自定义启动 打开mindie-service目录中的config.json,修改server相关配置。 @@ -356,7 +358,7 @@ tail -f output.log Daemon start success! ``` -### 请求测试 +#### 请求测试 服务启动成功后,可使用curl命令发送请求验证,样例如下: @@ -370,6 +372,390 @@ curl -w "\ntime_total=%{time_total}\n" -H "Accept: application/json" -H "Content {"generated_text":" it is a city with a long history and rich culture....."} ``` -## 模型列表 +### 模型列表 + +其他模型的MindIE推理示例可参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)中的各模型的介绍文档。 + +## vLLM服务化部署 + +### 概述 + +vLLM是由加州大学伯克利分校 Sky Computing Lab 创建的社区开源项目,已广泛用于学术研究和工业应用。vLLM 以 Continuous Batching 调度机制和 PagedAttention Key-Value 缓存管理为基础,提供了丰富的推理服务功能,包括投机推理、Prefix Caching、Multi-LoRA 等。同时,vLLM已支持种类丰富的开源大模型,包括 Transformer 类(如LLaMa)、混合专家类(如 DeepSeek)、Embedding 类(如E5-Mistral)、多模态类(如LLaVA)等。由于 vLLM 选用 PyTorch 构建大模型和管理计算存储资源,此前无法使用其部署基于 MindSpore 大模型的推理服务。 + +vLLM MindSpore 插件(vllm-mindspore)是一个由 [mindspore社区](https://www.mindspore.cn/) 孵化的vLLM后端插件。其将基于 MindSpore 构建的大模型推理能力接入 [vLLM](https://github.com/vllm-project/vllm) ,从而有机整合 MindSpore 和 vLLM 的技术优势,提供全栈开源、高性能、易用的大模型推理解决方案。 + +MindSpore Transformers 套件的目标是构建一个大模型预训练、微调、评测、推理、部署的全流程开发套件,提供业内主流的 Transformer 类大语言模型(Large Language Models, LLMs)和多模态理解模型(Multimodal Models, MMs)。 + +![框架图](../vllm-architecture.png) + +vLLM MindSpore 采用 vLLM 社区推荐的插件机制,实现能力注册。MindSpore Transformers 作为配套的大模型套件,被集成在 vLLM MindSpore 的插件里,旨在为用户提供高性能且易用的模型库。 + +### 环境搭建 + +在本章节中,我们推荐用docker创建的方式,以快速部署vLLM MindSpore环境,以下是部署docker的步骤介绍。 + +#### 拉取镜像 + +用户可执行以下命令,拉取 vLLM MindSpore 的 docker 镜像: + +```bash +docker pull hub.oepkgs.net/oedeploy/openeuler/aarch64/mindspore:latest +``` + +更换命令中的镜像的 tag,可以拉取其他的镜像。拉取过程中,用户将看到docker镜像各layer的拉取进度。 + +#### 新建容器 + +用户在完成拉取镜像后,DOCKER_NAME与IMAGE_NAME为容器名与镜像名,并执行以下命令新建容器。 + +```bash +export DOCKER_NAME=vllm-mindspore-container # your container name +export IMAGE_NAME=hub.oepkgs.net/oedeploy/openeuler/aarch64/mindspore:latest # your image name + +docker run -itd --name=${DOCKER_NAME} --ipc=host --network=host --privileged=true \ + --device=/dev/davinci0 \ + --device=/dev/davinci1 \ + --device=/dev/davinci2 \ + --device=/dev/davinci3 \ + --device=/dev/davinci4 \ + --device=/dev/davinci5 \ + --device=/dev/davinci6 \ + --device=/dev/davinci7 \ + --device=/dev/davinci_manager \ + --device=/dev/devmm_svm \ + --device=/dev/hisi_hdc \ + -v /usr/local/sbin/:/usr/local/sbin/ \ + -v /var/log/npu/slog/:/var/log/npu/slog \ + -v /var/log/npu/profiling/:/var/log/npu/profiling \ + -v /var/log/npu/dump/:/var/log/npu/dump \ + -v /var/log/npu/:/usr/slog \ + -v /etc/hccn.conf:/etc/hccn.conf \ + -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ + -v /usr/local/dcmi:/usr/local/dcmi \ + -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ + -v /etc/ascend_install.info:/etc/ascend_install.info \ + -v /etc/vnpu.cfg:/etc/vnpu.cfg \ + --shm-size="250g" \ + ${IMAGE_NAME} \ + bash +``` + +#### 进入容器 + +用户在完成新建容器后,使用已定义的环境变量 DOCKER_NAME,启动并进入容器: + +```bash +docker exec -it $DOCKER_NAME bash +``` + +### 快速体验 + +用户在环境部署完毕后,在运行模型前,需要准备模型文件,用户可通过模型下载章节的指引作模型准备,在环境变量设置后,可采用离线推理或在线服务的方式,下面以 Qwen3模型为例进行模型体验。 + +#### 模型下载 + +首先需要先准备好Qwen3-32B 的模型权重文件,关于模型权重文件的下载可参考:[模型下载](https://docs.qq.com/doc/DU2NZRkNKRWVtY1Zo?u=824fe16231b14a86a7ea9bd02cdf0e26) + +#### 环境变量 + +vLLM在线推理面向实时服务场景,依托动态批处理和OpenAI兼容API,具有高并发、低延迟的特点,适用于企业级高并发应用。 +vLLM MindSpore 可使用 OpenAI 的 API 协议,进行在线服务部署。以下是以Qwen3模型为例,介绍模型的启动服务,并发送请求,得到在线服务的推理结果。 + +##### 多卡并行 + +**启动服务** + +使用模型Qwen/Qwen3-32B,并用如下命令拉起vLLM服务: + +```bash +python3 -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model "/path/to/Qwen3-32B" --trust-remote-code --max-num-seqs --max-num-seqs $MAX_NUM_SEQS --tensor-parallel-size $TENSOR_PARALLEL_SIZE --max-model-len $MAX_MODEL_LEN +``` + +其中: + +- MAX_NUM_SEQS:最大Batch数 +- TENSOR_PARALLEL_SIZE:为用户指定的卡数,当值设为1时即为单卡推理。 +- MAX_MODEL_LEN:为模型最大输出token数。 + +更多启动参数配置可参考:[vLLM CLI参数](https://docs.vllm.ai/en/latest/configuration/engine_args.html#cacheconfig)。 + +若服务成功拉起,则可以获得类似的执行结果: + +```bash +INFO: Started server process [200492] +INFO: Waiting for application startup. +INFO: Application startup complete. +``` + +另外,日志中还会打印出服务的性能数据信息,如: + +```bash +Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg gereration throughput: 0.0 tokens/s, Running: 0 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.0%, Prefix cache hit rate: 0.0% +``` + +**发送数据** + +使用如下命令发送请求。其中prompt字段为模型输入: + +```baah +curl http://localhost:8094/v1/completions -H "Content-Type: application/json" -d '{ +"model": "/path/to/Qwen3-32B/", +"prompt": "介绍一下上海", +"temperature": 0.6, +"top_p": 0.95, +"top_k": 20, +"min_p": 0, +"max_tokens": 4096, +"presence_penalty": 1.05 +}' +``` + +以上请求中的参数: + +- model:指定使用模型的路径 +- prompt:模型的文本提示 +- max_tokens:限制生成内容的最大token数量 +- temperature:控制生成随机性,值越大随机性越高 +- top_p:概率阈值采样,表示仅从累积概率大于等于设定值的token中采样 +- top_k:候选token数量限制,表示每一步仅从概率最高的设定值个token中采样 +- min_p:最小概率阈值过滤,表示保留概率大于设定值的所有token +- presence_penalty:抑制重复内容,用于降低重复概率 + +若请求处理成功,将获得如下的推理结果: + +```bash +{ + "id": "cmpl-20a3f08873284b60a40da68e3ce68ae8", + "object": "text_completion", + "created": 1753946589, + "model": "/data/checkpoint/Qwen3-32B-250426/", + "choices": [{ + "index": 0, + "text": "的天气情况。 上海位于中国东部沿海地区,属于亚热带季风气候,四季分明,降水充沛。以下是上海各季节的天气特点:\n\n1. **春季(3月-5月)** \n - 气温逐渐回暖,但波动较大,常有“倒春寒”现象。 \n - 降水增多,空气潮湿,偶尔伴有雷阵雨。 \n\n2. **夏季(6月-8月)** \n - 炎热多雨,平均气温在28℃至35℃之间,极端高温可达40℃以上。 \n - 受副热带高压影响,湿度高,体感闷热。 \n - 常有台风过境,带来强风和暴雨。 \n\n3. **秋季(9月-11月)** \n - 天气凉爽干燥,昼夜温差加大。 \n - 降水减少,阳光充足,是旅游和户外活动的黄金季节。 \n\n4. **冬季(12月-2月)** \n - 寒冷干燥,平均气温在4℃至10℃之间,偶有霜冻或小雪。 \n - 受冷空气南下影响,可能出现大风降温天气。 \n\n**实时天气查询建议**:由于天气变化较快,建议出行前通过气象网站(如中国天气网)或APP(如墨迹天气)获取最新预报,特别是关注台风、暴雨等极端天气预警。 \n\n希望这些信息对您有所帮助! 🌦️", + "logprobs": null, + "finish_reason": "stop", + "stop_reason": null, + "prompt_logprobs": null + }], + "usage": { + "prompt_tokens": 2, + "total_tokens": 330, + "completion_tokens": 328, + "prompt_tokens_details": null + } +} +``` + +##### 多机并行 + +vLLM 通过 Ray 对多个节点资源进行管理和运行。该样例对应张量并行(TP)为16的场景。 + +**设置环境变量** + +环境变量必须设置在 Ray 创建集群前,且当环境有变更时,需要通过 ray stop 将主从节点集群停止,并重新创建集群,否则环境变量将不生效。这里的环境变量较环境变量章节多了 Ray 需要的一些环境变量。 +分别在主从节点配置如下环境变量: + +```bash +source /usr/local/Ascend/ascend-toolkit/set_env.sh + +export GLOO_SOCKET_IFNAME=enp189s0f0 +export HCCL_SOCKET_IFNAME=enp189s0f0 +export TP_SOCKET_IFNAME=enp189s0f0 +export MS_ENABLE_LCCL=off +export HCCL_OP_EXPANSION_MODE=AIV +export MS_ALLOC_CONF=enable_vmm:true +export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 +export vLLM_MODEL_BACKEND=MindFormers +export MINDFORMERS_MODEL_CONFIG=/path/to/yaml # 非MCore模型需要 +``` + +环境变量说明: + +- GLOO_SOCKET_IFNAME: GLOO后端端口。可通过ifconfig查找ip对应网卡的网卡名。 +- HCCL_SOCKET_IFNAME: 配置HCCL端口。可通过ifconfig查找ip对应网卡的网卡名。 +- TP_SOCKET_IFNAME: 配置TP端口。可通过ifconfig查找ip对应网卡的网卡名。 +- MS_ENABLE_LCCL: 关闭LCCL,使能HCCL通信。 +- HCCL_OP_EXPANSION_MODE: 配置通信算法的编排展开位置为Device侧的AI Vector Core计算单元。 +- MS_ALLOC_CONF: 设置内存策略。可参考https://www.mindspore.cn/docs/zh-CN/master/api_python/env_var_list.html。 +- ASCEND_RT_VISIBLE_DEVICES: 配置每个节点可用device id。用户可使用npu-smi info命令进行查询。 +- vLLM_MODEL_BACKEND:所运行的模型后端。 + +**启动 Ray 进行多节点集群管理** + +在 Ascend 上,需要额外安装 pyACL 包来适配 Ray。且所有节点的 CANN 依赖版本需要保持一致。 + +pyACL (Python Ascend Computing Language) 通过 CPython 封装了 AscendCL 对应的 API 接口,使用接口可以管理 Ascend AI 处理器和对应的计算资源。 + +在对应环境中,获取相应版本的 Ascend-cann-nnrt 安装包后,解压出 pyACL 依赖包并单独安装,并将安装路径添加到环境变量中: + +```bash +./Ascend-cann-nnrt_8.0.RC1_linux-aarch64.run --noexec --extract=./ +cd ./run_package +./Ascend-pyACL_8.0.RC1_linux-aarch64.run --full --install-path= +export PYTHONPATH=/CANN-/python/site-packages/:$PYTHONPATH +``` + +若安装过程有权限问题,可以使用以下命令加权限: + +```bash +chmod +x Ascend-pyACL_8.0.RC1_linux-aarch64.run +``` + +在 Ascend 的首页中可以下载 Ascend 运行包。如, 可以下载 [8.0.RC1.beta1](https://www.hiascend.cn/developer/download/community/result?module=cann&version=8.0.RC1.beta1) 对应版本的运行包。 + +接下来通过 Ray 对多个节点资源进行管理和运行。 + +**多节点间集群** + +多节点集群管理前,需要检查各节点的 hostname 是否各异,如果存在相同的,需要通过 hostname 设置不同的 hostname。 + +1.启动主节点 ray start --head --port=,启动成功后,会提示从节点的连接方式。如在 ip 为 192.5.5.5 的环境中,通过 ray start --head --port=6379,提示如下: + +```bash +Local node IP: 192.5.5.5 + +-------------------- +Ray runtime started. +-------------------- + +Next steps + To add another node to this Ray cluster, run + ray start --address='192.5.5.5:6379' + + To connect to this Ray cluster: + import ray + ray.init() + + To terminate the Ray runtime, run + ray stop + + To view the status of the cluster, use + ray status +``` + +2.从节点连接主节点 ray start --address=:。 +3.通过 ray status 查询集群状态,显示的NPU总数为节点总合,则表示集群成功。 + +```bash +Local node IP: 192.5.5.5 +[2025-07-31 10:56:29,844 W 109 109] global_state_accessor.cc:429: Retrying to get node with node ID 71e5ee0a18e3e3afbfc4ceec8056a73b30a5f3405964b1b3d28557ea + +-------------------- +Ray runtime started. +-------------------- + +To terminate the Ray runtime, run + ray stop +``` + +**启动服务示例** + +该示例以 Qwen3-235B-A22B-Instruct-2507 为例,运行张量并行(TP)为16的场景,运行在两台机器上。 + +```bash +python -m vllm_mindspore.entrypoints vllm.entrypoints.openai.api_server --model /path/to/ --trust-remote-code --enable-prefix-caching --tensor-parallel-size 16 --max-num-seqs 256 --max-model-len 8192 --block-size 32 --gpu-memory-utilization 0.9 --port 8000 --distributed-executor-backend=ray +``` + +以上运行命令中 --distributed-executor-backend=ray 用于设置分布式计算的执行后端(executor backend)为Ray。 + +**发起请求** + +```bash +curl http://localhost:8094/v1/completions -H "Content-Type: application/json" -d '{"model": "/path/to/Qwen3-235B-A22B-Instruct-2507/", "prompt": "哲学是什么", "temperature": 0, "max_tokens": 256, "top_p": 1.0, "top_k": 1, "repetition_penalty":1.0}' +``` + +**请求响应** + +```bash +{ + "id": "cmpl-deff2881f0ff437f9d4060f2237f6d9c", + "object": "text_completion", + "created": 1753962391, + "model": "/data/Qwen3-235B-A22B-Instruct-2507/", + "choices": [{ + "index": 0, + "text": "?哲学家们如何思考问题?\n哲学是一门探讨基本问题的学科,这些问题包括存在、知识、真理、道德、美、心灵、语言等等。哲学家们试图通过理性思考和逻辑推理来回答这些问题,并且常常会提出新的问题。\n\n哲学家们思考问题的方式通常包括以下几个方面:\n\n1. 提出问题:哲学家们会提出一些基本的问题,例如“什么是真理?”、“我们如何知道我们所知道的是真实的?”等等。\n\n2. 分析概念:哲学家们会分析一些基本的概念,例如“自由意志”、“意识”、“自我”等等,以更好地理解它们的意义和作用。\n\n3. 逻辑推理:哲学家们会使用逻辑推理来构建论证,以支持或反驳某种观点。他们会考虑前提是否合理、结论是否必然等等。\n\n4. 反思和批判:哲学家们会反思自己的观点和其他人的观点,并对其进行批判。他们会考虑不同的观点之间的关系,以及它们的优点和缺点。\n\n5. 探索可能性:哲学家们会探索不同的可能性,例如不同的世界观、价值观等等。他们会考虑这些可能性的意义和影响。\n\n哲学家们思考问题的方式是多样的,但通常都强调理性思考和逻辑推理的重要性。他们", + "logprobs": null, + "finish_reason": "length", + "stop_reason": null, + "prompt_logprobs": null + }], + "usage": { + "prompt_tokens": 2, + "total_tokens": 258, + "completion_tokens": 256, + "prompt_tokens_details": null + } +} +``` + +##### 离线推理 + +vLLM的离线推理(Offline Batched Inference)专为高效处理大规模批量请求而设计,尤其适用于非实时、数据密集型的模型推理场景。 +以 Qwen3-8B 为例,用户可以使用如下 Python 脚本,调用vLLM的LLM接口,进行模型的离线推理: + +```bash +import vllm_mindspore # Add this line on the top of script. +from vllm import LLM, SamplingParams + +# Sample prompts. +prompts = [ + "I am", + "Today is", + "Llama is" +] + +# Create a sampling params object. +sampling_params = SamplingParams(temperature=0.0, top_p=0.95) + +# Create a LLM +llm = LLM(model="/path/to/Qwen3-8B") +# Generate texts from the prompts. The output is a list of RequestOutput objects +# that contain the prompt, generated text, and other information. +outputs = llm.generate(prompts, sampling_params) +# Print the outputs. +for output in outputs: + prompt = output.prompt + generated_text = output.outputs[0].text + print(f"Prompt: {prompt!r}. Generated text: {generated_text!r}") +``` + +若成功执行,则可以获得类似的执行结果: + +```bash +Prompt: 'I am'. Generated text: ' trying to find the value of the integral $\\int_{0}^{\\in' +Prompt: 'Today is'. Generated text: ' the day of the big sale at the mall. The first 100' +Prompt: 'Llama is'. Generated text: ' a series of open-source large language models developed by Meta. The first version,' +``` + +#### 特性支持 + +目前列举的是已经支持的特性,更多特性正在支持中。 + +|特性|状态|开启|关闭| +|--|--|--|--| +|Automatic Prefix Caching|已支持|在线服务:--enable-prefix-caching 离线服务:enable_prefix_caching=True|在线服务:--no-enable-prefix-caching 离线服务:enable_prefix_caching=False| +|Chunked Prefill|已支持|在线服务:--enable-chunked-prefill 离线服务:enable_chunked_prefill=True|在线服务:--no-enable-prefix-caching 离线服务:enable_prefix_caching=False| +|Multi LoRA|测试中|--|--| + +### 附录 + +#### 版本配套信息 + +版本配套:https://www.mindspore.cn/vllm_mindspore/docs/zh-CN/master/getting_started/installation/installation.html#%E7%89%88%E6%9C%AC%E9%85%8D%E5%A5%97 + +#### 模型支持列表 + +|模型|Mcore新架构|状态|下载链接| +|-|-|-|-| +|Qwen3-32B|是|已支持|[Qwen3-32B](https://modelers.cn/models/MindSpore-Lab/Qwen3-32B)| +|Qwen3-235B-A22B|是|已支持|[Qwen3-235B-A22B](https://huggingface.co/Qwen/Qwen3-235B-A22B)| +|Qwen3|是|测试中|[Qwen3-0.6B](https://huggingface.co/Qwen/Qwen3-0.6B)、 [Qwen3-1.7B](https://huggingface.co/Qwen/Qwen3-1.7B)、 [Qwen3-4B](https://huggingface.co/Qwen/Qwen3-4B)、 [Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B)、 [Qwen3-14B](https://modelers.cn/models/MindSpore-Lab/Qwen3-14B)| +|Qwen3-MOE|是|测试中|[Qwen3-30B-A3](https://modelers.cn/models/MindSpore-Lab/Qwen3-30B-A3B-Instruct-2507)| +|deepSeek-V3|是|测试中|[deepSeek-V3](https://modelers.cn/models/MindSpore-Lab/DeepSeek-V3)| +|Qwen2.5|否|已支持|[Qwen2.5-0.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct)、 [Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct)、 [Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct)、 [Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct)、 [Qwen2.5-14B-Instruct](https://huggingface.co/Qwen/Qwen2.5-14B-Instruct)、 [Qwen2.5-32B-Instruct](https://huggingface.co/Qwen/Qwen2.5-32B-Instruct)、 [Qwen2.5-72B-Instruct](https://huggingface.co/Qwen/Qwen2.5-72B-Instruct)| + +#### 环境变量 -其他模型的MindIE推理示例可参考[模型库](https://www.mindspore.cn/mindformers/docs/zh-CN/master/introduction/models.html)中的各模型的介绍文档。 \ No newline at end of file +vLLM环境变量:https://docs.vllm.ai/en/latest/configuration/env_vars.html +vLLM MindSpore环境变量:https://gitee.com/mindspore/docs/blob/master/docs/vllm_mindspore/docs/source_zh_cn/user_guide/environment_variables/environment_variables.md diff --git a/docs/mindformers/docs/source_zh_cn/vllm-architecture.png b/docs/mindformers/docs/source_zh_cn/vllm-architecture.png new file mode 100644 index 0000000000000000000000000000000000000000..4f9b3f5f890e87ad2bf5a67cb887854c25694452 Binary files /dev/null and b/docs/mindformers/docs/source_zh_cn/vllm-architecture.png differ