diff --git a/debug/accuracy_tools/api_accuracy_checker/README.md b/debug/accuracy_tools/api_accuracy_checker/README.md index 8fdaeab8dc5921924480d250a3945eef68be7050..84d4535c60554463278b6269ba3586ba8af663b4 100644 --- a/debug/accuracy_tools/api_accuracy_checker/README.md +++ b/debug/accuracy_tools/api_accuracy_checker/README.md @@ -45,20 +45,33 @@ Ascend模型精度预检工具能在昇腾NPU上扫描用户训练模型中所 若报错信息不一致,可能是由于服务器的其他错误信息覆盖导致,可以尝试查找报错信息中的Exception。 - - 若训练脚本中的代码不是通过torch.utils.data.dataloader来加载数据或在部分流水并行、张量并行场景下,工具的开关无法在每张卡上自动打开,导致多卡训练dump结果只有一组json,那么需要在训练代码中添加打开工具开关的调用: + - 若训练脚本中的代码不是通过torch.utils.data.dataloader来加载数据或在部分流水并行、张量并行场景下,工具的开关无法在每张卡上自动打开,导致多卡训练dump结果只有一组json,那么需要在训练代码中添加打开工具开关的调用。 + 首先,需要关闭torch.utils.data.dataloader加载数据,操作如下: + + ```bash + cd att/debug/accuracy_tools/api_accuracy_checker + vi config.yaml + # 修改enable_dataloader参数值为False + ``` + + 其次,在训练代码中添加数据dump操作如下: + ```Python import api_accuracy_checker.dump as DP - DP.dump.set_dump_switch("ON") + + # 需要先修改enable_dataloader参数值为False + # 关闭torch.utils.data.dataloader加载数据时,下列代码须在训练step代码内添加 + DP.dump.start() # 开启工具dump模块 ... - DP.dump.set_dump_switch("OFF") # 可选,未配置"OFF"参数时表示dump从DP.dump.set_dump_switch("ON")开始的所有数据 + DP.dump.stop() # 控制dump结束 + DP.dump.step() # 在DP.dump.stop()后加入DP.dump.step()即可指定需要dump的step ``` - - DP.dump.set_dump_switch:开启工具dump模块,该接口取值为"ON"和"OFF",配置OFF时,仅结束dump操作不结束训练进程,用户需要手动结束训练进程。 - + 上述代码要添加在迭代前向的代码段中,或者说是遍历数据集循环的代码段中。如对于GPT-3可以添加在pretrain_gpt.py 的forward_step函数中。之后工具会适配这个场景开关的自动打开。 + dump信息默认会存盘到“./step1”路径下(相对于启动训练的路径),包括: