diff --git a/README.md b/README.md
index 565fc0fd54bf2eb0be36454326f8e77ae76e292a..e3c6aa3cb382e70319ba150bf1bd7ecd4668874b 100644
--- a/README.md
+++ b/README.md
@@ -22,9 +22,9 @@ MindSpeed LLM是基于昇腾生态的大语言模型分布式训练框架,旨
## NEWS !!! 📣📣📣
🚀🚀🚀**DeepSeek-V3**预训练已支持基于 **[MindSpore AI框架](./docs/mindspore/readme.md)** 运行!!!🚀🚀🚀
-🚀🚀🚀**Qwen3** 系列模型同步首发支持!!!🚀🚀🚀
+🚀🚀🚀**glm4.5-moe** 系列模型同步首发支持!!!🚀🚀🚀
-**[Qwen3系列模型](https://gitee.com/ascend/MindSpeed-LLM/tree/2.1.0/tests/0day/qwen3)** 😊
+🚀🚀🚀**Qwen3** 系列模型同步首发支持!!!🚀🚀🚀
🚀🚀🚀**DeepSeek-R1** 系列功能逐步上线!!🚀🚀🚀
@@ -38,7 +38,9 @@ MindSpeed LLM是基于昇腾生态的大语言模型分布式训练框架,旨
😊 **[DeepSeek-R1-Distill-Qwen](./examples/mcore/deepseek_r1_distill_qwen/)** **[DeepSeek-R1-Distill-LLaMA](./examples/mcore/deepseek_r1_distill_llama/)**
-> 注:当前qwen3系列模型功能完善、验证中,非商用版本。
+> 注:
+> 当前qwen3系列模型功能已逐步完善,移步[examples/mcore](./examples/mcore)使用更完整功能;
+> glm4.5-moe系列模型功能完善、验证中,非商用版本,移步[examples/mcore](./examples/mcore)使用更完整功能。
## 版本配套表
diff --git a/tests/0day/qwen3/README.md b/tests/0day/qwen3/README.md
index 650997342e7fb1554af27b1f3417c52bf54505e8..1127911b1cd235ac9f10d5db5493d4800825cfeb 100644
--- a/tests/0day/qwen3/README.md
+++ b/tests/0day/qwen3/README.md
@@ -2,7 +2,9 @@
`认证`【Pass】表示经过昇腾官方版本测试的模型,【Test】表示待测试模型
-**目前qwen3模型已通过内部验证,可参考本章节完成环境安装,移步[examples/mcore](../../../examples/mcore)使用更完整功能。**
+**目前qwen3模型已通过内部验证,可参考[安装指导](../../../docs/pytorch/install_guide.md)完成环境安装**
+
+**[test/0day/qwen3](../qwen3/)文件夹下其他脚本仅作展示用,请移步[examples/mcore](../../../examples/mcore)使用完整功能。**
@@ -11,7 +13,6 @@
模型 |
下载链接 |
魔乐社区链接 |
- 脚本位置 |
序列 |
实现 |
集群 |
@@ -21,60 +22,54 @@
- Qwen3-dense |
+ Qwen3-dense |
0.6B |
0.6B |
- Qwen3-0.6B |
4K |
Mcore |
1x8 |
【Ascend】 |
- 【Test】 |
+ 【Pass】 |
1.7B |
1.7B |
- Qwen3-1.7B |
4K |
Mcore |
1x8 |
【Ascend】 |
- 【Test】 |
+ 【Pass】 |
4B |
4B |
- Qwen3-4B |
4K |
Mcore |
1x8 |
【Ascend】 |
- 【Test】 |
+ 【Pass】 |
8B |
8B |
- Qwen3-8B |
4K |
Mcore |
1x8 |
【Ascend】 |
- 【Test】 |
+ 【Pass】 |
14B |
14B |
- Qwen3-14B |
4K |
Mcore |
1x8 |
【Ascend】 |
- 【Test】 |
+ 【Pass】 |
32B |
32B |
- Qwen3-32B |
4K |
Mcore |
2x8 |
@@ -82,10 +77,9 @@
【Test】 |
- Qwen3-moe |
+ Qwen3-moe |
30B |
30B |
- Qwen3-30B-A3B |
4K |
Mcore |
2x8 |
@@ -95,7 +89,6 @@
235B |
235B |
- Qwen3-235B-A22B |
4K |
Mcore |
16x16 |
@@ -106,25 +99,6 @@
-## MindSpeed跑通Qwen3模型手把手教程:快速部署与应用
-本教程将指导从环境准备到模型训练的完整过程,确保快速上手并顺利跑通Qwen3模型。下文示例qwen3-1.7B的运行步骤,以下是详细说明:
-
-
-### 目录
-
-- [环境配置](#环境配置)
- - [硬件要求](#硬件要求)
- - [环境搭建](#环境搭建)
- - [版本声明](#版本声明)
-- [训练全流程参考](#训练全流程参考)
- - [权重转换](##权重转换)
- - [数据预处理](##数据预处理)
- - [模型训练](##训练)
- - [推理](##推理)
- - [评估](##评估)
-
-
-
# 环境配置
## 硬件要求
@@ -136,7 +110,7 @@
## 环境搭建
-MindSpeed-LLM的主要依赖配套如下表,安装步骤参考[安装指导](../../../docs/features/install_guide.md)。
+MindSpeed-LLM的主要依赖配套如下表,安装步骤参考[安装指导](../../../docs/pytorch/install_guide.md)。
@@ -184,52 +158,7 @@ MindSpeed-LLM的主要依赖配套如下表,安装步骤参考[安装指导](.
-#### 1. 仓库拉取
-```shell
-git clone https://gitee.com/ascend/MindSpeed-LLM.git
-git clone https://github.com/NVIDIA/Megatron-LM.git
-cd Megatron-LM
-git checkout core_r0.8.0
-cp -r megatron ../MindSpeed-LLM/
-cd ..
-cd MindSpeed-LLM
-mkdir logs
-mkdir dataset
-mkdir ckpt
-```
-
-
-
-#### 2. 相关依赖安装
-
-torch npu 与 CANN包参考链接:[安装包参考链接](https://support.huawei.com/enterprise/zh/ascend-computing/cann-pid-251168373/software)
-
-```bash
-# python3.10
-conda create -n test python=3.10
-conda activate test
-
-# 安装 torch 和 torch_npu,注意要选择对应python版本、x86或arm的torch、torch_npu及apex包
-pip install torch-2.1.0-cp310-cp310m-manylinux2014_aarch64.whl
-pip install torch_npu-2.1.0*-cp310-cp310m-linux_aarch64.whl
-
-# apex for Ascend 参考 https://gitee.com/ascend/apex
-# 建议从原仓编译安装
-
-# 安装加速库
-git clone https://gitee.com/ascend/MindSpeed.git
-cd MindSpeed
-# checkout commit from MindSpeed core_r0.8.0
-git checkout 2c085cc9
-pip install -r requirements.txt
-pip install -e .
-cd ../MindSpeed-LLM
-
-
-# 安装其余依赖库
-pip install -r requirements.txt
-```
**注意** : Qwen 3系列模型要求transformers版本为4.51.0,用户需执行以下命令:
```
@@ -244,98 +173,8 @@ url=https://github.com/huggingface/transformers/tree/v4.51.0
commit_id=0720e20
```
-## 训练全流程参考
-
-### 权重转换
-
-1. 权重下载
-
- 从[huggingface](https://huggingface.co/Qwen/Qwen3-1.7B-Base)或者[魔乐社区](https://modelers.cn/models/MindSpeed/Qwen3-1.7B-Base)下载权重和配置文件
-
-2. 权重转换
-
- 提供脚本将huggingface开源权重转换为mcore权重,用于训练、推理、评估等任务。
-
- 使用方法如下,请根据实际需要的TP/PP等切分策略和权重路径修改权重转换脚本
- ```sh
- cd MindSpeed-LLM
- bash examples/mcore/qwen3/ckpt_convert_qwen3_hf2mcore.sh
- ```
-
-
-
-### 数据预处理
-
-数据集处理使用方法如下,请根据实际需要修改以下参数
-
-```sh
-cd MindSpeed-LLM
-bash examples/mcore/qwen3/data_convert_qwen3_pretrain.sh
- ```
-
-| 参数名 | 含义 |
-|--------|-----------------|
-| --input | 数据集路径 |
-| --tokenizer-name-or-path | 模型tokenizer目录 |
-| --output-prefix | 数据集处理完的输出路径及前缀名 |
-
-
-
-### 训练
-
-预训练使用方法如下
-
- ```sh
- cd MindSpeed-LLM
- bash examples/mcore/qwen3/pretrain_qwen3_1point7b_4K_ptd.sh
- ```
-用户需要根据实际情况修改脚本中以下变量
- | 变量名 | 含义 |
- |--------|-----------------|
- | MASTER_ADDR | 多机情况下主节点IP |
- | NODE_RANK | 多机下,各机对应节点序号 |
- | CKPT_SAVE_DIR | 训练中权重保存路径 |
- | DATA_PATH | 数据预处理后的数据路径 |
- | TOKENIZER_PATH | qwen3 tokenizer目录 |
- | CKPT_LOAD_DIR | 权重转换保存的权重路径,为初始加载的权重,如无初始权重则随机初始化 |
-
-### 推理
-
-推理使用方法如下
-
- ```sh
- cd MindSpeed-LLM
- bash examples/mcore/qwen3/generate_qwen3_1point7b_ptd.shh
- ```
-用户需要根据实际情况修改脚本中以下变量
- | 变量名 | 含义 |
- |--------|-----------------|
- | MASTER_ADDR | 多机情况下主节点IP |
- | NODE_RANK | 多机下,各机对应节点序号 |
- | CHECKPOINT | 训练保存的权重路径 |
- | TOKENIZER_PATH | qwen3 tokenizer目录 |
-
-### 评估
-
-评估使用方法如下
-
- ```sh
- cd MindSpeed-LLM
- bash examples/mcore/qwen3/evaluate_qwen3_1point7b_ptd.sh
- ```
-用户需要根据实际情况修改脚本中以下变量
- | 变量名 | 含义 |
- |--------|-----------------|
- | MASTER_ADDR | 多机情况下主节点IP |
- | NODE_RANK | 多机下,各机对应节点序号 |
- | TOKENIZER_PATH | qwen3 tokenizer目录 |
- | CKPT_LOAD_DIR | 权重转换保存的权重路径,为初始加载的权重,如无初始权重则随机初始化 |
- | DATA_PATH | 评估采用的数据集路径,当前推荐使用MMLU |
- | TASK | 评估采用的数据集,当前推荐使用MMLU |
-
-
### 声明
-0day系列模型处于内部测试阶段,未完成充分的性能测试和验收。在实际使用中可能存在未被发现的问题,待后续充分验证后会发布正式版本。相关使用问题请反馈至[MindSpeed-LLM/issues](https://gitee.com/ascend/MindSpeed-LLM/issues)。
+0day系列模型尚有部分功能处于内部测试阶段,未完成充分的性能测试和验收。在实际使用中可能存在未被发现的问题,待后续充分验证后会发布正式版本。相关使用问题请反馈至[MindSpeed-LLM/issues](https://gitee.com/ascend/MindSpeed-LLM/issues)。
MindSpeed-LLM框架将持续支持相关主流模型演进,并根据开源情况面向全体开发者提供支持。
\ No newline at end of file