# YuanEngine **Repository Path**: yuanshi-ai/YuanEngine ## Basic Information - **Project Name**: YuanEngine - **Description**: 元擎大模型推理一体机用户手册 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-04-15 - **Last Updated**: 2025-05-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 元擎大模型推理一体机使用文档 ## 元擎设计理念 - 元擎是一个大模型推理一体机,它可以运行各种大模型,包括但不限于 DeepSeek R1 系列、Qwen 系列、以及OpenBMB等。 - 元擎的设计理念是全部采用 Docker 容器化部署,并且使用 Nvidia Container Toolkit 来扩展 Docker 使用 GPU 进行计算的能力。 - 所有的应用都采用 Docker 进行管理、部署和运行,这样可以保证应用的独立性和稳定性。 ## 系统整体框架 ![](assets/arch.png) ## 系统环境 - Ubuntu 22.04.5 LTS, 用户名 yuanshi,密码 123 - Docker - Nvidia Container Toolkit - SGLang 大模型推理框架 ## 基础 Docker 镜像 - `sglang:latest` 用于本地推理部署大模型,并发请求处理,默认监听 30000 端口,采用 OpenAI API 协议进行通信。 - `yuanmanager:v.01` 用于管理应用,包括应用商城、模型管理、应用管理等 - `yuanknowledge:v0.1` 用于知识问答应用 - `yuanocr:v0.1` 用于 OCR 应用 ## D-48G/128G 支持大模型列表 | 类型 | 模型名称 | 路径 | | ---------------- | ------------------------------ | --------------------------------------------------------------------- | | **推理大模型** | DeepSeek-R1-1.5B | `/opt/modesl/DeepSeek-R1-Distill-Qwen-1.5B` | | **推理大模型** | DeepSeek-R1-7B | `/opt/modesl/DeepSeek-R1-Distill-Qwen-7B` | | **推理大模型** | DeepSeek-R1-8B | `/opt/modesl/DeepSeek-R1-Distill-Llama-8B` | | **推理大模型** | DeepSeek-R1-14B | `/opt/modesl/DeepSeek-R1-Distill-Qwen-14B` | | **推理大模型** | DeepSeek-R1-32B-INT8 | `/opt/models/neuralmagic/DeepSeek-R1-Distill-Qwen-32B-quantized.w8a8` | | **推理大模型** | QwQ-32B-AWQ | `/opt/models/Qwen/QwQ-32B-AWQ` | | **文本大模型** | Qwen2.5-3B-Instruct | `/opt/models/Qwen/Qwen2.5-3B-Instruct` | | **文本大模型** | Qwen2.5-7B-Instruct | `/opt/models/Qwen/Qwen2.5-7B-Instruct` | | **文本大模型** | Qwen2.5-14B-Instruct | `/opt/models/Qwen/Qwen2.5-14B-Instruct` | | **文本大模型** | Qwen2.5-32B-Instruct-AWQ | `/opt/models/Qwen/Qwen2.5-32B-Instruct-AWQ` | | **代码大模型** | Qwen2.5-Coder-3B-Instruct | `/opt/models/Qwen/Qwen2.5-Coder-3B-Instruct` | | **代码大模型** | Qwen2.5-Coder-7B-Instruct | `/opt/models/Qwen/Qwen2.5-Coder-7B-Instruct` | | **代码大模型** | Qwen2.5-Coder-14B-Instruct | `/opt/models/Qwen/Qwen2.5-Coder-14B-Instruct` | | **代码大模型** | Qwen2.5-Coder-32B-Instruct-AWQ | `/opt/models/Qwen/Qwen2.5-Coder-32B-Instruct-AWQ` | | **多模态大模型** | Qwen2.5-VL-3B-Instruct | `/opt/models/Qwen/Qwen2.5-VL-3B-Instruct` | | **多模态大模型** | Qwen2.5-VL-7B-Instruct | `/opt/models/Qwen/Qwen2.5-VL-7B-Instruct` | | **多模态大模型** | Qwen2.5-VL-32B-Instruct-AWQ | `/opt/models/Qwen/Qwen2.5-VL-32B-Instruct-AWQ` | | **多模态大模型** | MiniCPM-V-2.6-8B | `/opt/models/OpenBMB/MiniCPM-V-2_6` | 元擎大模型一体机一共内置了 4 大类大模型,分别是: - 推理大模型(输入文本,输出文本中会包含思考过程) - 文本大模型(输入文本,输出文本) - 代码大模型(输入文本,输出文本,擅长编写代码) - 多模态大模型(输入图片和文本,输出文本,能够理解图像) 注:AWQ 表示 INT4 量化模型,INT8 表示 INT8 量化模型 ## D-48G/128G 并发测试结果 ### 测试环境 **元擎大模型推理一体机 Benchmark 测试** - **型号**: D-48G/128G - **CPU**: AMD 5950x - **GPU**: 双卡 RTX3090 24GB(搭载 NVLink) - **内存**: DDR4 128GB - **操作系统**: Ubuntu 22.04.5 LTS - **NVIDIA driver 版本**: 550.120 - **Docker SGLang 镜像 ID**: ca52b45be1a7 **测试方法** 模拟真实使用场景,采用 6 份源代码(最小 1443 tokens,最大 3615 tokens),每次随机挑选一份让大模型进行代码解读。 --- ### 并发推荐 | 模型 | 尺寸 | 强度中低 | 强度高 | | ------------------------------------------- | ----------------- | -------- | ------ | | DeepSeek-R1-Distill-Qwen-7B | 满血 | 50 | 10 | | DeepSeek-R1-Distill-Qwen-14B | 满血 | 10 | 5 | | DeepSeek-R1-Distill-Qwen-32B-quantized.w8a8 | 半血(INT8 w8a8) | 5 | 2 | ## 重要文件路径 - 大模型权重文件在`/opt/models`目录下 - 应用程序代码在`/opt/apps`目录下 ### YuanManager [YuanManager用户手册](yuanManager.md) YuanManager 是元擎大模型推理一体机的统一入口,包含应用商城、系统管理以及模型管理等功能。 其中系统管理采用[DPanel](https://dpanel.cc/#/)进行管理(用户名 admin,密码 admin),可以实现对容器的管理、日志查看、系统监控等功能。 - 默认访问地址(需启动对应容器):http://[本机ip地址]:5000 - docker启动命令 ``` docker run --rm -it --gpus all -p 5000:5000 -v /opt/apps/YuanManager:/app -v /var/run/docker.sock:/var/run/docker.sock -v /opt/models:/root/models yuanmanager:v0.1 /bin/bash -c 'python api.py' ``` ### YuanKnowledge [YuanKnowledge用户手册](yuanKnowledge.md) YuanKnowledge 是元擎大模型推理一体机的知识服务系统,包含知识库的创建、查询、更新等功能。默认同时启动 DeepSeek R1 32B INT8 大模型实现文档问答功能。 - 默认访问地址(需从yuanManager启动):http://[本机ip地址]:5001 ### YuanOCR [YuanOCR用户手册](yuanOCR.md) YuanOCR 是元擎大模型推理一体机的文档扫描系统,包含文档、图片 OCR 提取等功能。默认同时启动 MiniCPM V2.6 大模型进行多模态文档提取。 - 默认访问地址(需从yuanManager启动):http://[本机ip地址]:5002 ### dify Dify 是一个开源的大语言模型(LLM)应用开发平台,旨在简化和加速生成式 AI 应用的创建和部署。它融合了后端即服务(Backend as Service, BaaS)和 LLMOps 的理念,为开发者提供了一个用户友好的界面和一系列强大的工具,使他们能够快速搭建生产级的 AI 应用。 ![dify](./assets/dify.png) - 访问地址:http://[本机IP地址]:8888 - 管理员账号:123@123.com - 管理员密码:Yuanshi123 ## Docker 管理 ![Dpanel](./assets/dpanel.png) 通过 DPanel 进行管理,有以下三种方式进行访问: ### 地址访问 - 本地访问:http://[本机ip地址]:8807 - 用户名:admin - 密码:admin ## 本机运维管理软件1panel ![1panel](./assets/1panel.png) - 获取登录链接和账号 ``` sudo 1pctl user-info ``` - 忘记密码重置(默认密码yuanshi123) ``` sudo 1pctl update password ```