From bbbc59e2e222df91e79639a381e7e1d7ad1f446d Mon Sep 17 00:00:00 2001 From: xiaoCY Date: Thu, 3 Apr 2025 02:54:32 +0000 Subject: [PATCH] =?UTF-8?q?=E8=A1=A5=E5=85=85sysHAX=E5=A3=B0=E6=98=8E?= =?UTF-8?q?=E4=BF=A1=E6=81=AF?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Signed-off-by: xiaoCY --- .../sysHax-deployment-guide.md | 58 ++----------------- 1 file changed, 4 insertions(+), 54 deletions(-) diff --git a/docs/zh/tools/ai/syshax_userguide/sysHax-deployment-guide.md b/docs/zh/tools/ai/syshax_userguide/sysHax-deployment-guide.md index 7ed02aff4..e15be5425 100644 --- a/docs/zh/tools/ai/syshax_userguide/sysHax-deployment-guide.md +++ b/docs/zh/tools/ai/syshax_userguide/sysHax-deployment-guide.md @@ -1,6 +1,8 @@ -# vllm部署指南 +# sysHAX部署指南 -**高吞吐、低内存占用**的**大语言模型(LLM)推理与服务引擎**,支持**CPU 计算加速**,提供高效的算子下发机制,包括: +sysHAX当前处于快速迭代阶段,基于vllm v0.6.6+npu进行验证。vllm上游发布的正式支持npu的版本为v0.7.1rc1,而当前用的vllm版本处于验证阶段,未合入主线。因此,在当前创新版本中暂不以源码形式发布,而是以容器化的形式为大家提供技术尝鲜。也欢迎开发者在使用过程中有任何问题和建议,可以在sig-Intelligence组中进行充分交流。 + +vllm是一款**高吞吐、低内存占用**的**大语言模型(LLM)推理与服务引擎**,支持**CPU 计算加速**,提供高效的算子下发机制,包括: - **Schedule(调度)**:优化任务分发,提高并行计算效率 - **Prepare Input(准备数据)**:高效的数据预处理,加速输入构建 @@ -110,55 +112,3 @@ docker run -itd \ vllm serve /home/models/DeepSeek-R1-Distill-Llama-70B --distributed-executor-backend ray --tensor-parallel-size 8 --block-size 32 --preemption_mode swap ``` -## 物理机部署场景 - -### cann安装 - -| Ascend-cann-toolkit | Ascend-cann-toolkit_8.0.RC3_linux-aarch64.run | -| ----------------------- | ------------------------------------------------------ | -| Ascend-cann-kernels | Ascend-cann-kernels-910b_8.0.RC3_linux-aarch64.run | - -```shell -# 安装第三方依赖 -yum install -y gcc gcc-c++ make cmake unzip zlib-devel libffi-devel openssl-devel pciutils net-tools sqlite-devel lapack-devel gcc-gfortran -# 可执行如下命令检查系统是否安装满足要求的Python开发环境(要求python3.7.5~3.7.11、python3.8.0~3.8.11、python3.9.0~3.9.7和python3.10.0~3.10.12)。 -python3 --version -pip3 --version -# 安装相关依赖 -pip3 install attrs numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py wheel typing_extensions - -chmod +x Ascend-cann-toolkit_8.0.RC3_linux-aarch64.run -chmod +x Ascend-cann-kernels-910b_8.0.RC3_linux-aarch64.run - -# 安装toolkit -./Ascend-cann-toolkit_8.0.RC3_linux-aarch64.run --install --install-for-all --quiet -# 等待回显xxx install success - -vi ~/.bashrc -# 文件最后一行加入 -source /usr/local/Ascend/ascend-toolkit/set_env.sh -# wq!退出 -source ~/.bashrc - -# 安装二进制算子包 -./Ascend-cann-kernels-910b_8.0.RC3_linux-aarch64.run --install --install-for-all --quiet -# 等待回显xxx install success -``` - -### 物理机场景vllm搭建 - -```shell -# 拉取代码 -https://gitee.com/qmzznbxhl/sysHAX_oe -cd sysHAX_oe -git checkout npu_support - -# 安装第三方依赖 -yum install gcc make -VLLM_TARGET_DEVICE=npu pip install -e . -# 等待安装完成 -pip install ray - -# 启动vllm,模型自行下载 -vllm serve /home/models/DeepSeek-R1-Distill-Llama-70B --distributed-executor-backend ray --tensor-parallel-size 8 --block-size 32 --preemption_mode swap -``` -- Gitee