# YuanEngine

**Repository Path**: yuanshi-ai/YuanEngine

## Basic Information

- **Project Name**: YuanEngine
- **Description**: 元擎大模型推理一体机用户手册
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-04-15
- **Last Updated**: 2025-05-14

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 元擎大模型推理一体机使用文档

## 元擎设计理念

- 元擎是一个大模型推理一体机，它可以运行各种大模型，包括但不限于 DeepSeek R1 系列、Qwen 系列、以及OpenBMB等。
- 元擎的设计理念是全部采用 Docker 容器化部署，并且使用 Nvidia Container Toolkit 来扩展 Docker 使用 GPU 进行计算的能力。
- 所有的应用都采用 Docker 进行管理、部署和运行，这样可以保证应用的独立性和稳定性。

## 系统整体框架

![](assets/arch.png)

## 系统环境

- Ubuntu 22.04.5 LTS, 用户名 yuanshi，密码 123
- Docker
- Nvidia Container Toolkit
- SGLang 大模型推理框架

## 基础 Docker 镜像

- `sglang:latest` 用于本地推理部署大模型，并发请求处理，默认监听 30000 端口，采用 OpenAI API 协议进行通信。
- `yuanmanager:v.01` 用于管理应用，包括应用商城、模型管理、应用管理等
- `yuanknowledge:v0.1` 用于知识问答应用
- `yuanocr:v0.1` 用于 OCR 应用

## D-48G/128G 支持大模型列表

| 类型             | 模型名称                       | 路径                                                                  |
| ---------------- | ------------------------------ | --------------------------------------------------------------------- |
| **推理大模型**   | DeepSeek-R1-1.5B               | `/opt/modesl/DeepSeek-R1-Distill-Qwen-1.5B`                           |
| **推理大模型**   | DeepSeek-R1-7B                 | `/opt/modesl/DeepSeek-R1-Distill-Qwen-7B`                             |
| **推理大模型**   | DeepSeek-R1-8B                 | `/opt/modesl/DeepSeek-R1-Distill-Llama-8B`                            |
| **推理大模型**   | DeepSeek-R1-14B                | `/opt/modesl/DeepSeek-R1-Distill-Qwen-14B`                            |
| **推理大模型**   | DeepSeek-R1-32B-INT8           | `/opt/models/neuralmagic/DeepSeek-R1-Distill-Qwen-32B-quantized.w8a8` |
| **推理大模型**   | QwQ-32B-AWQ                    | `/opt/models/Qwen/QwQ-32B-AWQ`                                        |
| **文本大模型**   | Qwen2.5-3B-Instruct            | `/opt/models/Qwen/Qwen2.5-3B-Instruct`                                |
| **文本大模型**   | Qwen2.5-7B-Instruct            | `/opt/models/Qwen/Qwen2.5-7B-Instruct`                                |
| **文本大模型**   | Qwen2.5-14B-Instruct           | `/opt/models/Qwen/Qwen2.5-14B-Instruct`                               |
| **文本大模型**   | Qwen2.5-32B-Instruct-AWQ       | `/opt/models/Qwen/Qwen2.5-32B-Instruct-AWQ`                           |
| **代码大模型**   | Qwen2.5-Coder-3B-Instruct      | `/opt/models/Qwen/Qwen2.5-Coder-3B-Instruct`                          |
| **代码大模型**   | Qwen2.5-Coder-7B-Instruct      | `/opt/models/Qwen/Qwen2.5-Coder-7B-Instruct`                          |
| **代码大模型**   | Qwen2.5-Coder-14B-Instruct     | `/opt/models/Qwen/Qwen2.5-Coder-14B-Instruct`                         |
| **代码大模型**   | Qwen2.5-Coder-32B-Instruct-AWQ | `/opt/models/Qwen/Qwen2.5-Coder-32B-Instruct-AWQ`                     |
| **多模态大模型** | Qwen2.5-VL-3B-Instruct         | `/opt/models/Qwen/Qwen2.5-VL-3B-Instruct`                             |
| **多模态大模型** | Qwen2.5-VL-7B-Instruct         | `/opt/models/Qwen/Qwen2.5-VL-7B-Instruct`                             |
| **多模态大模型** | Qwen2.5-VL-32B-Instruct-AWQ    | `/opt/models/Qwen/Qwen2.5-VL-32B-Instruct-AWQ`                        |
| **多模态大模型** | MiniCPM-V-2.6-8B               | `/opt/models/OpenBMB/MiniCPM-V-2_6`                                   |

元擎大模型一体机一共内置了 4 大类大模型，分别是：

- 推理大模型（输入文本，输出文本中会包含思考过程）
- 文本大模型（输入文本，输出文本）
- 代码大模型（输入文本，输出文本，擅长编写代码）
- 多模态大模型（输入图片和文本，输出文本，能够理解图像）

注：AWQ 表示 INT4 量化模型，INT8 表示 INT8 量化模型

## D-48G/128G 并发测试结果

### 测试环境

**元擎大模型推理一体机 Benchmark 测试**

- **型号**: D-48G/128G
- **CPU**: AMD 5950x
- **GPU**: 双卡 RTX3090 24GB（搭载 NVLink）
- **内存**: DDR4 128GB
- **操作系统**: Ubuntu 22.04.5 LTS
- **NVIDIA driver 版本**: 550.120
- **Docker SGLang 镜像 ID**: ca52b45be1a7

**测试方法**  
模拟真实使用场景，采用 6 份源代码（最小 1443 tokens，最大 3615 tokens），每次随机挑选一份让大模型进行代码解读。

---

### 并发推荐

| 模型                                        | 尺寸              | 强度中低 | 强度高 |
| ------------------------------------------- | ----------------- | -------- | ------ |
| DeepSeek-R1-Distill-Qwen-7B                 | 满血              | 50       | 10     |
| DeepSeek-R1-Distill-Qwen-14B                | 满血              | 10       | 5      |
| DeepSeek-R1-Distill-Qwen-32B-quantized.w8a8 | 半血（INT8 w8a8） | 5        | 2      |

## 重要文件路径

- 大模型权重文件在`/opt/models`目录下
- 应用程序代码在`/opt/apps`目录下


### YuanManager [YuanManager用户手册](yuanManager.md)
YuanManager 是元擎大模型推理一体机的统一入口，包含应用商城、系统管理以及模型管理等功能。
其中系统管理采用[DPanel](https://dpanel.cc/#/)进行管理（用户名 admin，密码 admin），可以实现对容器的管理、日志查看、系统监控等功能。
- 默认访问地址(需启动对应容器)：http://[本机ip地址]:5000
- docker启动命令
    ```
    docker run --rm -it --gpus all -p 5000:5000 -v /opt/apps/YuanManager:/app -v /var/run/docker.sock:/var/run/docker.sock -v  /opt/models:/root/models yuanmanager:v0.1 /bin/bash -c 'python api.py'
    ```


### YuanKnowledge [YuanKnowledge用户手册](yuanKnowledge.md)

YuanKnowledge 是元擎大模型推理一体机的知识服务系统，包含知识库的创建、查询、更新等功能。默认同时启动 DeepSeek R1 32B INT8 大模型实现文档问答功能。
- 默认访问地址(需从yuanManager启动)：http://[本机ip地址]:5001


### YuanOCR [YuanOCR用户手册](yuanOCR.md)

YuanOCR 是元擎大模型推理一体机的文档扫描系统，包含文档、图片 OCR 提取等功能。默认同时启动 MiniCPM V2.6 大模型进行多模态文档提取。
- 默认访问地址(需从yuanManager启动)：http://[本机ip地址]:5002


### dify

Dify 是一个开源的大语言模型（LLM）应用开发平台，旨在简化和加速生成式 AI 应用的创建和部署。它融合了后端即服务（Backend as Service, BaaS）和 LLMOps 的理念，为开发者提供了一个用户友好的界面和一系列强大的工具，使他们能够快速搭建生产级的 AI 应用。
![dify](./assets/dify.png)
- 访问地址：http://[本机IP地址]:8888
- 管理员账号：123@123.com
- 管理员密码：Yuanshi123

## Docker 管理
![Dpanel](./assets/dpanel.png)
通过 DPanel 进行管理，有以下三种方式进行访问：

### 地址访问

- 本地访问：http://[本机ip地址]:8807
- 用户名：admin
- 密码：admin


## 本机运维管理软件1panel
![1panel](./assets/1panel.png)
- 获取登录链接和账号
    ```
    sudo 1pctl user-info
    ```
- 忘记密码重置(默认密码yuanshi123)
    ```
    sudo 1pctl update password
    ```