diff --git a/debug/accuracy_tools/msprobe/README.md b/debug/accuracy_tools/msprobe/README.md index 17ad0e2a051931c04ec23e4e08079ca3d474da60..5e3a0fa70ff3455b724bf6b283b46030d32bf783 100644 --- a/debug/accuracy_tools/msprobe/README.md +++ b/debug/accuracy_tools/msprobe/README.md @@ -165,7 +165,7 @@ MindSpore 动态图场景的[离线预检](./docs/09.accuracy_checker_MindSpore. 训练前或精度比对前,对比两个环境下可能影响训练精度的配置差异。 -[PyTorch 训练前配置检查](./docs/31.config_check.md) +[训练前配置检查](./docs/31.config_check.md) 训练过程中或结束后,比较两个不同的checkpoint,评估模型相似度。 diff --git a/debug/accuracy_tools/msprobe/docs/01.installation.md b/debug/accuracy_tools/msprobe/docs/01.installation.md index d247400026d57d9e86d4f877a170659a32739d58..c65b9610683e56dcbfc3c840470e751c66433bc6 100644 --- a/debug/accuracy_tools/msprobe/docs/01.installation.md +++ b/debug/accuracy_tools/msprobe/docs/01.installation.md @@ -60,6 +60,35 @@ pip install ./mindstudio_probe*.whl # 特性变更说明 +## 8.1.1 + +【数据采集】 + +- 单点保存能力增强,新增 MindSpore 和 Pytorch 框架异步单点保存,MindSpore 静态图单点保存能力。 +- task 支持 statistic + tenser 模式共存 +- MindSpore 静态图支持模块级 dump 及比对 +- 支持分析整网首个溢出节点 +- 提供对外接口支持用户注册自定义 api 的 dump + +【训练状态监控】 + +- 支持偏离历史值及时告警 +- 支持 nan 值和极大值即时告警 +- 支持堆栈信息采集 +- 支持 mbs 粒度梯度信息采集 +- 支持采集 shape, dtype 信息 +- 激活值监控支持多输入场景 + +【训练检查】 + +- 新增模块,用于[训练前配置项](./docs/31.config_check.md)对齐 +- 支持三方库,环境变量,训练超参,模型权重,输入数据及随机性函数检查 +- 支持 [checkpoint 比对](./docs/32.ckpt_compare.md) + +【单算子API自动生成脚本】 + +- 新增支持 MindSpore 框架 + ## 1.2.0 【数据采集】 diff --git a/debug/accuracy_tools/msprobe/docs/03.config_examples.md b/debug/accuracy_tools/msprobe/docs/03.config_examples.md index 0d29a4eb1a824bba2c1bda1a214c9add2e87bdba..fe411225483885574b75750ad45ec8d2fc2b88fe 100644 --- a/debug/accuracy_tools/msprobe/docs/03.config_examples.md +++ b/debug/accuracy_tools/msprobe/docs/03.config_examples.md @@ -13,6 +13,7 @@ "rank": [], "step": [], "level": "L1", + "async_dump": false, "statistics": { "scope": [], @@ -33,6 +34,7 @@ "rank": [], "step": [], "level": "L1", + "async_dump": false, "tensor": { "scope": [],