# MindSpeed-RL **Repository Path**: cs123abc/MindSpeed-RL ## Basic Information - **Project Name**: MindSpeed-RL - **Description**: 昇腾强化学习加速库 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 291 - **Created**: 2025-03-20 - **Last Updated**: 2025-04-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

MindSpeed-RL是基于昇腾生态的强化学习加速框架，旨在为华为 [昇腾芯片](https://www.hiascend.com/) 生态合作伙伴提供端到端的RL训推解决方案，支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力 ## NEWS !!! 📣📣📣 🚀🚀🚀**DeepSeek-R1** 系列功能逐步上线！！🚀🚀🚀 - **[DeepSeek-R1-ZERO Qwen-7B](./docs/solutions/r1_zero_qwen25_7b.md)** 😊 - **[DeepSeek-R1-ZERO Qwen-32B](./docs/solutions/r1_zero_qwen25_32b.md)** 😊 --- ## 安装教程本版本为**预览非正式发布**版本，依赖配套如下表，安装步骤参考[安装指导](./docs/install_guide.md)

依赖软件	版本
昇腾NPU驱动	25.0.RC1
昇腾NPU固件	25.0.RC1
Toolkit（开发套件）	8.1.RC1
Kernel（算子包）
NNAL（Ascend Transformer Boost加速库）
Python	3.10
torch	2.5.1
torch_npu	2.5.1
apex	0.1
ray	2.42.1
vllm	0.7.3

## 使用教程 ### 训练算法

训练算法	训练指南	支持模型	发布状态
指令微调	Doc	Qwen2.5-7B Qwen2.5-32B	Preview
结果奖励	Doc	Qwen2.5-7B Qwen2.5-32B	Preview
GRPO	Doc	Qwen2.5-7B	Preview

注："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本 ### 核心特性

核心特性	特性指南	适用算法	适用模型	发布状态
训推共卡	Doc	GRPO	Qwen2.5-7B Qwen2.5-32B	Preview

注："Preview"发布状态表示预览非正式发布版本，"Released"发布状态表示正式发布版本 ## 版本维护策略 MindSpeed-RL版本有以下五个维护阶段： | **状态** | **时间** | **说明** | | ------------------- | --------- |-------------------------------------------------------------------------| | 计划 | 1—3 个月 | 计划特性 | | 开发 | 3 个月 | 开发特性 | | 维护 | 6-12 个月 | 合入所有已解决的问题并发布版本，针对不同的MindSpeed-RL版本采取不同的维护策略，常规版本和长期支持版本维护周期分别为6个月和12个月 | | 无维护 | 0—3 个月 | 合入所有已解决的问题，无专职维护人员，无版本发布 | | 生命周期终止（EOL） | N/A | 分支不再接受任何修改 | MindSpeed-RL已发布版本维护策略： | **MindSpeed-RL版本** | **对应标签** | **维护策略** | **当前状态** | **发布时间** | **后续状态** | **EOL日期** | |--------------------| ------------ |----------|----------|-----------|----------|-----------| | 0.0.1 | \ | 预览版本 | 待发布 | 2025/3/30 | \ | 2024/9/30 | ## 致谢 MindSpeed-RL由华为公司的下列部门以及昇腾生态合作伙伴联合贡献：华为公司： - 计算产品线 - 2012实验室 - 公共开发部 - 全球技术服务部 - 华为云计算感谢来自社区的每一个PR，共同打造业界领先的RL训推系统 ## 免责声明 ### 致MindSpeed-RL使用者 1. MindSpeed-RL提供的模型仅供您用于非商业目的。 2. 对于各模型，MindSpeed-RL平台仅提示性地向您建议可用于训练的数据集，华为不提供任何数据集，如您使用这些数据集进行训练，请您特别注意应遵守对应数据集的License，如您因使用数据集而产生侵权纠纷，华为不承担任何责任。 3. 如您在使用MindSpeed-RL模型过程中，发现任何问题（包括但不限于功能问题、合规问题），请在Gitee提交issue，我们将及时审视并解决。 ### 致数据集所有者如果您不希望您的数据集在MindSpeed-RL中的模型被提及，或希望更新MindSpeed-RL中的模型关于您的数据集的描述，请在Gitee提交issue，我们将根据您的issue要求删除或更新您的数据集描述。衷心感谢您对MindSpeed-RL的理解和贡献。