From 5ec402efee51dad9211b516702ce7e0187fa8455 Mon Sep 17 00:00:00 2001 From: lichangwei Date: Mon, 30 Jun 2025 16:28:59 +0800 Subject: [PATCH] =?UTF-8?q?=E3=80=90bugfix=E3=80=91msprobe=E8=B5=84?= =?UTF-8?q?=E6=96=99=E4=BC=98=E5=8C=96=EF=BC=8C=E6=96=B0=E7=89=B9=E6=80=A7?= =?UTF-8?q?=E8=AF=B4=E6=98=8E?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- debug/accuracy_tools/msprobe/README.md | 2 +- .../msprobe/docs/01.installation.md | 29 +++++++++++++++++++ .../msprobe/docs/03.config_examples.md | 2 ++ 3 files changed, 32 insertions(+), 1 deletion(-) diff --git a/debug/accuracy_tools/msprobe/README.md b/debug/accuracy_tools/msprobe/README.md index b90281a7d8..c91d8f2a09 100644 --- a/debug/accuracy_tools/msprobe/README.md +++ b/debug/accuracy_tools/msprobe/README.md @@ -162,7 +162,7 @@ MindSpore 动态图场景的[离线预检](./docs/09.accuracy_checker_MindSpore. 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异。 -[PyTorch 训练前配置检查](./docs/31.config_checking.md) +[训练前配置检查](./docs/31.config_check.md) 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度。 diff --git a/debug/accuracy_tools/msprobe/docs/01.installation.md b/debug/accuracy_tools/msprobe/docs/01.installation.md index bac24b33a3..dc36999466 100644 --- a/debug/accuracy_tools/msprobe/docs/01.installation.md +++ b/debug/accuracy_tools/msprobe/docs/01.installation.md @@ -57,6 +57,35 @@ pip install ./mindstudio_probe*.whl # 特性变更说明 +## 8.1.1 + +【数据采集】 + +- 单点保存能力增强,新增 MindSpore 和 Pytorch 框架异步单点保存,MindSpore 静态图单点保存能力。 +- task 支持 statistic + tenser 模式共存 +- MindSpore 静态图支持模块级 dump 及比对 +- 支持分析整网首个溢出节点 +- 提供对外接口支持用户注册自定义 api 的 dump + +【训练状态监控】 + +- 支持偏离历史值及时告警 +- 支持 nan 值和极大值即时告警 +- 支持堆栈信息采集 +- 支持 mbs 粒度梯度信息采集 +- 支持采集 shape, dtype 信息 +- 激活值监控支持多输入场景 + +【训练检查】 + +- 新增模块,用于[训练前配置项](./docs/31.config_check.md)对齐 +- 支持三方库,环境变量,训练超参,模型权重,输入数据及随机性函数检查 +- 支持 [checkpoint 比对](./docs/32.ckpt_compare.md) + +【单算子API自动生成脚本】 + +- 新增支持 MindSpore 框架 + ## 1.2.0 【数据采集】 diff --git a/debug/accuracy_tools/msprobe/docs/03.config_examples.md b/debug/accuracy_tools/msprobe/docs/03.config_examples.md index 0d29a4eb1a..fe41122548 100644 --- a/debug/accuracy_tools/msprobe/docs/03.config_examples.md +++ b/debug/accuracy_tools/msprobe/docs/03.config_examples.md @@ -13,6 +13,7 @@ "rank": [], "step": [], "level": "L1", + "async_dump": false, "statistics": { "scope": [], @@ -33,6 +34,7 @@ "rank": [], "step": [], "level": "L1", + "async_dump": false, "tensor": { "scope": [], -- Gitee