diff --git a/docs/mindstudio/docs/source_zh_cn/feature/performance.md b/docs/mindstudio/docs/source_zh_cn/feature/performance.md index e504f5dabf42241ecd4cf03a3d6ecff9dd6864e3..ac00bb96c5c26775a6ba169f2ab4fc9ec4708254 100644 --- a/docs/mindstudio/docs/source_zh_cn/feature/performance.md +++ b/docs/mindstudio/docs/source_zh_cn/feature/performance.md @@ -78,7 +78,7 @@ MindStudio Training Tools工具链中的MindStudio Insight工具、msprof-analyz msleaks - 内存泄漏检测 + 内存分析 提供Step内和Step间的内存异常检测能力,包括Step内内存泄漏分析和Step间内存对比分析。 适用于分析内存泄漏异常的场景。 diff --git a/docs/mindstudio/docs/source_zh_cn/feature/precision.md b/docs/mindstudio/docs/source_zh_cn/feature/precision.md index e208221f4dae3be248d51dcb4ccd52b2c6de5857..99c9d5999d7d5b0105225c15a56c4afb2660d21e 100644 --- a/docs/mindstudio/docs/source_zh_cn/feature/precision.md +++ b/docs/mindstudio/docs/source_zh_cn/feature/precision.md @@ -14,17 +14,11 @@ msprobe 是 MindStudio Training Tools 工具链下精度调试部分的工具包 msprobe - 离线预检 + 离线精度预检 为网络中每个API创建用例,检验其精度,并根据不同比对算法综合判定API在NPU上的精度是否达标,快速找出精度差异API。 1. 对模型中所有的API做精度初步排查
2. 精度排查不受模型累计误差影响 仅支持mindspore.mint API - - 训练状态监控 - 收集模型训练过程中的激活值、梯度和优化器状态,助力分析计算、通信、优化器各部分异常情况。 - 通过监控模块级统计量指标,快速定位异常模块位置,如loss出现Nan - 1. 仅支持模块级别统计量指标分析
2. 仅支持Megatron、DeepSeed框架
3. 会产生少量耗时和显存膨胀 - 数据采集 采集模型训练过程中的API或Cell层级的前反向输入输出数据,包括层次关系、统计值信息、真实数据和调用栈等。 @@ -37,6 +31,12 @@ msprobe 是 MindStudio Training Tools 工具链下精度调试部分的工具包 1. 当模型出现溢出时,可用于定位最先溢出的API或Cell或kernel
2. 相比数据采集,性能更优,磁盘压力更小 1. 除具有与数据采集功能相同的约束外,动态图场景下,不支持 Primitive 和 Jit 类 API 的检测
2. 动态图场景下,仅支持检测API或Cell级别溢出
3. 静态图场景下,仅支持检测kernel级别溢出 + + 训练状态监控 + 收集模型训练过程中的激活值、梯度和优化器状态,助力分析计算、通信、优化器各部分异常情况。 + 通过监控模块级统计量指标,快速定位异常模块位置,如loss出现Nan + 1. 仅支持模块级别统计量指标分析
2. 仅支持Megatron、DeepSeed框架
3. 会产生少量耗时和显存膨胀 + 可视化比对 解析Dump的精度数据,还原模型图结构,比对各层级精度数据,助力理解模型结构、分析精度问题。 diff --git a/docs/mindstudio/docs/source_zh_cn/images/MindStudio.png b/docs/mindstudio/docs/source_zh_cn/images/MindStudio.png new file mode 100644 index 0000000000000000000000000000000000000000..2bc5bf44fbd19c83a5bd49f591113b9833009fd7 Binary files /dev/null and b/docs/mindstudio/docs/source_zh_cn/images/MindStudio.png differ diff --git a/docs/mindstudio/docs/source_zh_cn/index.rst b/docs/mindstudio/docs/source_zh_cn/index.rst index 00226c6dd69fab455238338f7aabd83a1bc29be3..d6bb6eee52cfb22323b7a87899efb646c3c06926 100644 --- a/docs/mindstudio/docs/source_zh_cn/index.rst +++ b/docs/mindstudio/docs/source_zh_cn/index.rst @@ -9,6 +9,17 @@ MindStudio是面向AI开发者提供的全流程工具链,提供了精度、 代码仓地址: +.. image:: ./images/MindStudio.png + :alt: Architecture + +.. toctree:: + :glob: + :maxdepth: 1 + :caption: 工具概览与安装 + :hidden: + + overview + .. toctree:: :glob: :maxdepth: 1 @@ -33,44 +44,3 @@ MindStudio是面向AI开发者提供的全流程工具链,提供了精度、 :hidden: guide/large_model - -调试调优工具概览与安装说明 --------------------------------- - -.. raw:: html - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
类型名称简介安装指南
精度调试msprobe提供精度数据采集、精度预检、精度比对和溢出检测等精度调试功能。推荐优先选择msprobe 8.1.1版本安装msprobe
性能调优ProfilerMindSpore框架内置的性能数据采集、分析工具。推荐优先选择MindSpore 2.7.0版本。安装MindSpore
msprof-anaylze为采集的性能数据提供统计、分析、专家建议等功能。推荐优先选择msprof-anaylze 2.0.2版本安装msprof-anaylze
msleaksCANN包提供的命令行工具,用于模型训内存问题定位,提供Step内和Step间的内存异常检测能力,包括Step内内存泄漏分析和Step间内存对比分析。安装MindSpore
MindStudio Insight可视化性能调优工具,提供时间线视图、算子耗时、通信瓶颈分析等功能,辅助快速分析模型性能瓶颈。安装MindStudio Insight
查询版本配套关系
\ No newline at end of file diff --git a/docs/mindstudio/docs/source_zh_cn/overview.md b/docs/mindstudio/docs/source_zh_cn/overview.md new file mode 100644 index 0000000000000000000000000000000000000000..3b6f1e6b896ddca53a677c80db3be2dfe2576705 --- /dev/null +++ b/docs/mindstudio/docs/source_zh_cn/overview.md @@ -0,0 +1,44 @@ +# 调试调优工具概览与安装说明 + +[![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/r2.7.0/resource/_static/logo_source.svg)](https://gitee.com/mindspore/docs/blob/r2.7.0/docs/mindstudio/docs/source_zh_cn/overview.md) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
类型名称简介安装指南
精度调试msprobe提供精度数据采集、精度预检、精度比对和溢出检测等精度调试功能。推荐优先选择msprobe 8.1.1版本安装msprobe
Tensorboard可视化比对工具:为msprobe采集的模型结构和精度数据提供可视化比对功能。仅支持MindSpore>=2.4.0版本。安装tb_graph_ascend
性能调优ProfilerMindSpore框架内置的性能数据采集、分析工具。推荐优先选择MindSpore 2.7.0版本。安装MindSpore
msprof-anaylze为采集的性能数据提供统计、分析、专家建议等功能。推荐优先选择msprof-anaylze 2.0.2版本安装msprof-anaylze
msleaksCANN包提供的命令行工具,用于模型训内存问题定位,提供Step内和Step间的内存异常检测能力,包括Step内内存泄漏分析和Step间内存对比分析。安装MindSpore
MindStudio Insight可视化性能调优工具,提供时间线视图、算子耗时、通信瓶颈分析等功能,辅助快速分析模型性能瓶颈。安装MindStudio Insight
查询版本配套关系