diff --git a/README.md b/README.md index a51c3a258d8b67289056cd90cdefbd3704b8f0a2..b6ddd832d2d55ee0be0d67e61d1e9821de9eecba 100644 --- a/README.md +++ b/README.md @@ -1,8 +1,13 @@ -# ATT +# 变更通知 -Ascend Training Tools,昇腾训练工具链。【Powered by MindStudio】 +原Ascend Training Tools工具更名为MindStudio Training Tools,MindStudio训练工具链。变更计划如下: -针对训练&大模型场景,提供端到端命令行&可视化调试调优工具,帮助用户快速提高模型开发效率。 +1. 2024.06.25本代码仓名称变更为mstt。 +2. 2024.07.25 URL变更为[https://gitee.com/ascend/mstt](https://gitee.com/ascend/mstt),原始URL将不再维护。 + +# MindStudio Training Tools + +MindStudio Training Tools,MindStudio训练工具链。针对训练&大模型场景,提供端到端命令行&可视化调试调优工具,帮助用户快速提高模型开发效率。 ## 模型训练迁移全流程 ![输入图片说明](debug/resources/model_training_migration_process.png) @@ -59,7 +64,7 @@ Tensorboard支持NPU性能数据可视化插件PyTorch Profiler TensorBoard NPU ## 分支维护策略 -ATT工具版本分支的维护阶段如下: +MindStudio Training Tools工具版本分支的维护阶段如下: | **状态** | **时间** | **说明** | | ------------------- | -------- | ------------------------------------------------ | @@ -71,9 +76,9 @@ ATT工具版本分支的维护阶段如下: ## 现有分支的维护状态 -ATT分支名称格式为:版本号-ATT,而版本号命名规则如下: -1. ATT仓每年发布4个版本,每个版本都将对应一个分支;以v6.0为例,其将对应v6.0.RC1、v6.0.RC2、v6.0.RC3以及v6.0.0四个版本,在仓库中将存在与之对应的分支(增加后缀ATT,例如v6.0.0-ATT); -2. 同时每个版本都将对应一个标签,例如v6.0.RC1-ATT,后续在对分支进行维护过程中将定期进行对应版本标签的更新,例如对v6.0.RC1-ATT标签再次更新之后将打标签v6.0.RC1.1,后续更新末尾数字依次增加。 +MindStudio Training Tools分支版本号命名规则如下: + +mstt仓每年发布4个版本,每个版本都将对应一个分支;以v6.0为例,其将对应v6.0.RC1、v6.0.RC2、v6.0.RC3以及v6.0.0四个版本,在仓库中将存在与之对应的分支。 | **分支** | **状态** | **发布日期** | **后续状态** | **EOL日期** | | ------------- | -------- | ------------ | ------------------------ | ----------- | diff --git a/debug/accuracy_tools/README.md b/debug/accuracy_tools/README.md index d26ee95aee43608ca7cc3cd3b7d617e5c117e71a..0d4ea25e3e85bbad3c5c091449630f62dfdf842c 100644 --- a/debug/accuracy_tools/README.md +++ b/debug/accuracy_tools/README.md @@ -1,6 +1,6 @@ # 精度工具 -ATT工具针对模型训练精度问题设计推出了一系列精度工具,包括模型精度预检工具和PyTorch精度工具的精度比对功能、溢出检测功能、通信精度检测等功能。这些工具有各自侧重的场景,用于辅助用户定位模型精度问题。 +MindStudio Training Tools工具针对模型训练精度问题设计推出了一系列精度工具,包括模型精度预检工具和PyTorch精度工具的精度比对功能、溢出检测功能、通信精度检测等功能。这些工具有各自侧重的场景,用于辅助用户定位模型精度问题。 ### 子功能介绍 diff --git a/debug/accuracy_tools/api_accuracy_checker/README.md b/debug/accuracy_tools/api_accuracy_checker/README.md index a3f7ea68ca248cce237b037f163097cd16de5215..3c42b63b36f69e2b4b1108239b64495cda0ed3de 100644 --- a/debug/accuracy_tools/api_accuracy_checker/README.md +++ b/debug/accuracy_tools/api_accuracy_checker/README.md @@ -27,10 +27,10 @@ Ascend模型精度预检工具能在昇腾NPU上扫描用户训练模型中所 ## 工具安装 -1. 将att仓代码下载到本地,并配置环境变量。假设下载后att仓路径为 $ATT_HOME,环境变量应配置为: +1. 将mstt仓代码下载到本地,并配置环境变量。假设下载路径为$HOME,环境变量应配置为: ```bash - export PYTHONPATH=$PYTHONPATH:$ATT_HOME/debug/accuracy_tools/ + export PYTHONPATH=$PYTHONPATH:$HOME/att/debug/accuracy_tools/ ``` 2. 安装依赖。 @@ -171,7 +171,7 @@ run_ut预检操作包括如下场景: 1. 将API信息输入给run_ut模块运行精度检测并比对,运行如下命令: ```bash - cd $ATT_HOME/debug/accuracy_tools/api_accuracy_checker/run_ut + cd $HOME/att/debug/accuracy_tools/api_accuracy_checker/run_ut python run_ut.py -forward ./forward_info_0.json -backward ./backward_info_0.json ``` @@ -212,7 +212,7 @@ multi_run_ut.py脚本,可以并行执行多个run_ut操作,从而降低预 命令示例如下: ```bash -cd $ATT_HOME/debug/accuracy_tools/api_accuracy_checker/run_ut +cd $HOME/att/debug/accuracy_tools/api_accuracy_checker/run_ut python multi_run_ut.py -forward ./forward_info_0.json -backward ./backward_info_0.json -n 32 -d 0 1 2 3 ``` @@ -351,7 +351,7 @@ API预检通过测试,则在`accuracy_checking_details_{timestamp}.csv`文件 需要同时获取NPU和GPU环境下run_ut操作的预检结果`accuracy_checking_details_{timestamp}.csv`文件。执行如下命令进行NPU和GPU预检结果的比对: ```bash -cd $ATT_HOME/debug/accuracy_tools/api_accuracy_checker/compare +cd $HOME/att/debug/accuracy_tools/api_accuracy_checker/compare python api_precision_compare.py -npu /home/xxx/npu/accuracy_checking_details_{timestamp}.csv -gpu /home/xxx/gpu/accuracy_checking_details_{timestamp}.csv -o /home/xxx/ ``` @@ -423,10 +423,10 @@ Forward Test Success和Backward Test Success是否通过测试是由`api_precisi 1. 安装预检工具 - 将att仓代码下载到本地,并配置环境变量。假设下载后att仓路径为 $ATT_HOME,环境变量应配置为: + 将mstt仓代码下载到本地,并配置环境变量。假设下载路径为$HOME,环境变量应配置为: ```bash - export PYTHONPATH=$PYTHONPATH:$ATT_HOME/debug/accuracy_tools/ + export PYTHONPATH=$PYTHONPATH:$HOME/att/debug/accuracy_tools/ ``` 安装依赖: @@ -440,7 +440,7 @@ Forward Test Success和Backward Test Success是否通过测试是由`api_precisi **forward_info_0.json为[ptdbg_ascend精度工具功能说明](https://gitee.com/ascend/att/tree/master/debug/accuracy_tools/ptdbg_ascend/doc)中的"溢出检测场景"执行溢出检测dump时生成,而不是精度预检工具生成。** ```bash - cd $ATT_HOME/debug/accuracy_tools/api_accuracy_checker/run_ut + cd ${install_path}/debug/accuracy_tools/api_accuracy_checker/run_ut python run_overflow_check.py -forward ./forward_info_0.json ``` diff --git a/debug/accuracy_tools/api_accuracy_checker/api_accuracy_checker_online.md b/debug/accuracy_tools/api_accuracy_checker/api_accuracy_checker_online.md index 67a6ea5135eac4783165a7e89e9de26c1d533812..57435e33376bdd19b95f79b6f1033d85fe37d14a 100644 --- a/debug/accuracy_tools/api_accuracy_checker/api_accuracy_checker_online.md +++ b/debug/accuracy_tools/api_accuracy_checker/api_accuracy_checker_online.md @@ -131,7 +131,7 @@ GPU侧配置好config.yaml文件后执行run_ut.py脚本,此时GPU处于预检 命令如下: ```bash -cd $ATT_HOME/debug/accuracy_tools/api_accuracy_checker/run_ut +cd att/debug/accuracy_tools/api_accuracy_checker/run_ut python run_ut.py ``` diff --git a/debug/accuracy_tools/atat/README.md b/debug/accuracy_tools/atat/README.md index 6a1fbb473c21c3a922d781a52a300818d03a063c..e7e485e4f336fa9af98062b328f4e85f7fac77f8 100644 --- a/debug/accuracy_tools/atat/README.md +++ b/debug/accuracy_tools/atat/README.md @@ -1,6 +1,6 @@ # MindStudio精度调试工具 -MindStudio精度调试工具(ascend_training_accuracy_tools),简称atat,是ATT工具链下精度调试部分的工具包。主要包括精度预检和精度比对等子工具,当前适配场景包括PyTorch和MindSpore。 +MindStudio精度调试工具(ascend_training_accuracy_tools),简称atat,是MindStudio Training Tools工具链下精度调试部分的工具包。主要包括精度预检和精度比对等子工具,当前适配场景包括PyTorch和MindSpore。 ## 工具安装 diff --git a/debug/accuracy_tools/grad_tool/README.md b/debug/accuracy_tools/grad_tool/README.md index b7afed5ea8310f1bdd377abac22602e00a453651..f5eb7e0ed72a5ef331e92391c8ef3b89599a09a6 100644 --- a/debug/accuracy_tools/grad_tool/README.md +++ b/debug/accuracy_tools/grad_tool/README.md @@ -14,10 +14,10 @@ ## 工具安装 -1. 将att仓代码下载到本地,并配置环境变量。假设下载后att仓路径为 $ATT_HOME,环境变量应配置为: +1. 将mstt仓代码下载到本地,并配置环境变量。假设下载路径为$HOME,环境变量应配置为: ```bash - export PYTHONPATH=$PYTHONPATH:$ATT_HOME/debug/accuracy_tools/ + export PYTHONPATH=$PYTHONPATH:$HOME/att/debug/accuracy_tools/ ``` 2. 安装依赖 diff --git a/debug/accuracy_tools/ptdbg_ascend/doc/FAQ.md b/debug/accuracy_tools/ptdbg_ascend/doc/FAQ.md index 07f72654a07d7ef4ba395b19cf33a78f0496d099..a9faa12af1b60aa9e01e0a1f11230d92d4449fce 100644 --- a/debug/accuracy_tools/ptdbg_ascend/doc/FAQ.md +++ b/debug/accuracy_tools/ptdbg_ascend/doc/FAQ.md @@ -43,7 +43,7 @@ torch版本和硬件差异属于正常情况 **故障原因** -执行ptdbg_ascend的dump操作之前,同一命令行视图下先安装了精度预检工具,并配置了精度预检工具的环境变量:export PYTHONPATH=$PYTHONPATH:$ATT_HOME/debug/accuracy_tools/,导致ptdbg_ascend的dump操作读取到错误的路径。 +执行ptdbg_ascend的dump操作之前,同一命令行视图下先安装了精度预检工具,并配置了精度预检工具的环境变量:export PYTHONPATH=$PYTHONPATH:$HOME/att/debug/accuracy_tools/,导致ptdbg_ascend的dump操作读取到错误的路径。 **故障处理** diff --git "a/debug/accuracy_tools/ptdbg_ascend/doc/ptdbg_ascend\347\262\276\345\272\246\345\267\245\345\205\267\345\212\237\350\203\275\350\257\264\346\230\216_v6.0.md" "b/debug/accuracy_tools/ptdbg_ascend/doc/ptdbg_ascend\347\262\276\345\272\246\345\267\245\345\205\267\345\212\237\350\203\275\350\257\264\346\230\216_v6.0.md" index 6a014a1e010f10392a729589aaa6d30dd7019124..1092a15698f9bba7a53e285c30bc251c11af038f 100644 --- "a/debug/accuracy_tools/ptdbg_ascend/doc/ptdbg_ascend\347\262\276\345\272\246\345\267\245\345\205\267\345\212\237\350\203\275\350\257\264\346\230\216_v6.0.md" +++ "b/debug/accuracy_tools/ptdbg_ascend/doc/ptdbg_ascend\347\262\276\345\272\246\345\267\245\345\205\267\345\212\237\350\203\275\350\257\264\346\230\216_v6.0.md" @@ -318,9 +318,9 @@ PyTorch训练场景的精度问题分析建议参考以下思路进行精度比 精度预检工具执行命令如下: ```bash - # 下载att代码仓后执行如下命令 - export PYTHONPATH=$PYTHONPATH:$ATT_HOME/debug/accuracy_tools/ - cd $ATT_HOME/debug/accuracy_tools/api_accuracy_checker/run_ut + # 下载mstt代码仓后执行如下命令 + export PYTHONPATH=$PYTHONPATH:$HOME/att/debug/accuracy_tools/ + cd $HOME/att/debug/accuracy_tools/api_accuracy_checker/run_ut python run_overflow_check.py -forward ./forward_info_0.json ``` @@ -753,9 +753,9 @@ PyTorch训练场景的精度问题分析建议参考以下思路进行精度比 精度预检工具执行命令如下: ```bash - # 下载att代码仓后执行如下命令 - export PYTHONPATH=$PYTHONPATH:$ATT_HOME/debug/accuracy_tools/ - cd $ATT_HOME/debug/accuracy_tools/api_accuracy_checker/run_ut + # 下载mstt代码仓后执行如下命令 + export PYTHONPATH=$PYTHONPATH:$HOME/att/debug/accuracy_tools/ + cd $HOME/att/debug/accuracy_tools/api_accuracy_checker/run_ut python run_overflow_check.py -forward ./forward_info_0.json ``` diff --git a/debug/weight_convert/README.md b/debug/weight_convert/README.md index 6cc4e2481fbee3460fa79d600bd680721db4e6b7..677d7651e9c247eec58f09d33b585c9ac253dbc5 100644 --- a/debug/weight_convert/README.md +++ b/debug/weight_convert/README.md @@ -69,7 +69,7 @@ python3 convert_ckpt.py -i 待转换权重路径 -o 原始huggingface权重存 | --embed-layernorm | 模型中是否存在embedding layernorm结构 | False(默认)
True | | -h
--help | 显示帮助信息。 | - | - + 2. 模型转换命令参考 **Llama 7/13/65B**、 **Llama2 7/13/70B** diff --git a/profiler/README.md b/profiler/README.md index dff28625719f0e720f00499361aa2e8ca432aba8..705fb842794db5836faf3e57c07e61a32cb3021f 100644 --- a/profiler/README.md +++ b/profiler/README.md @@ -1,10 +1,10 @@ # 性能工具 -ATT工具针对训练&大模型场景,提供端到端性能调优工具:用户采集到性能数据后,由ATT性能工具提供统计、分析以及相关的调优建议。 +MindStudio Training Tools工具针对训练&大模型场景,提供端到端性能调优工具:用户采集到性能数据后,由MindStudio Training Tools的性能工具提供统计、分析以及相关的调优建议。 ## NPU性能数据采集 -目前ATT工具主要支持Ascend PyTorch Profiler接口的性能数据采集,请参考官方文档:[Ascend PyTorch Profiler数据采集与分析](https://www.hiascend.com/document/detail/zh/canncommercial/80RC1/devaids/auxiliarydevtool/atlasprofiling_16_0006.html)。 +目前MindStudio Training Tools工具主要支持对Ascend PyTorch Profiler接口采集的性能数据进行分析,请参考官方文档:[Ascend PyTorch Profiler数据采集与分析](https://www.hiascend.com/document/detail/zh/canncommercial/80RC1/devaids/auxiliarydevtool/atlasprofiling_16_0006.html)。 Ascend PyTorch Profiler接口支持AscendPyTorch 1.11.0或更高版本,支持的PyThon和CANN软件版本配套关系请参见“[安装PyTorch框架](https://www.hiascend.com/document/detail/zh/Pytorch/60RC1/configandinstg/instg/insg_0006.html)”。 @@ -111,7 +111,7 @@ ascend pytorch profiler数据目录结构如下: 若回显呈现对应版本whl包一致的**校验码**,则表示下载了正确的性能工具whl安装包。示例如下: - ``` + ```bash sha256sum msprof_analyze-1.0-py3-none-any.whl xx *msprof_analyze-1.0-py3-none-any.whl ``` @@ -120,19 +120,19 @@ ascend pytorch profiler数据目录结构如下: 执行如下命令进行安装。 - ``` + ```bash pip3 install ./msprof_analyze-{version}-py3-none-any.whl ``` 若为覆盖安装,请在命令行末尾增加“--force-reinstall”参数强制安装,例如: - ``` + ```bash pip3 install ./msprof_analyze-{version}-py3-none-any.whl --force-reinstall ``` 提示如下信息则表示安装成功。 - ``` + ```bash Successfully installed msprof_analyze-{version} ``` diff --git a/profiler/advisor/README.md b/profiler/advisor/README.md index 283aa2943881262ffbefaeb7025cf301c17b18fa..b81f79311a6162aad8f9cfadd6b37a5c521e9392 100644 --- a/profiler/advisor/README.md +++ b/profiler/advisor/README.md @@ -51,7 +51,7 @@ Jupyter Notebook使用方式如下: Jupyter Notebook工具的具体安装和使用指导请至Jupyter Notebook工具官网查找。 -2. 在环境下安装ATT工具。 +2. 在环境下安装mstt工具。 ``` git clone https://gitee.com/ascend/att.git