From 08423202895e1417b0386664645d63a42493e3f1 Mon Sep 17 00:00:00 2001 From: louyujing Date: Wed, 13 Sep 2023 02:00:43 +0000 Subject: [PATCH 1/5] update debug/accuracy_tools/api_accuracy_checker/README.md. Signed-off-by: louyujing --- debug/accuracy_tools/api_accuracy_checker/README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/debug/accuracy_tools/api_accuracy_checker/README.md b/debug/accuracy_tools/api_accuracy_checker/README.md index 0de173146..c9de471ec 100644 --- a/debug/accuracy_tools/api_accuracy_checker/README.md +++ b/debug/accuracy_tools/api_accuracy_checker/README.md @@ -93,6 +93,10 @@ DP.dump.set_dump_switch("ON") 上述代码要添加在迭代前向的代码段中,或者说是遍历数据集循环的代码段中。如对于GPT-3可以添加在pretrain_gpt.py 的forward_step函数中。之后工具会适配这个场景开关的自动打开。 +2. run ut过程中出现报错:ERROR:Got unsupported ScalarType BFloat16 + + 答:请使用最新版本的工具 + # 溢出API解析工具 针对训练过程中的溢出检测场景,对于输入正常但输出存在溢出的API,会在训练执行目录下将溢出的API信息按照前向和反向分类,dump并保存为`forward_info_{pid}.json`和`backward_info_{pid}.json`,前向过程溢出的API可通过该工具对`forward_info_{pid}.json`进行解析,输出溢出API为正常溢出还是非正常溢出,从而帮助用户快速判断。 -- Gitee From c5ad026adc712a6898c000afcdeb5a101481b0c5 Mon Sep 17 00:00:00 2001 From: louyujing Date: Thu, 14 Sep 2023 02:15:42 +0000 Subject: [PATCH 2/5] update debug/accuracy_tools/api_accuracy_checker/README.md. Signed-off-by: louyujing --- debug/accuracy_tools/api_accuracy_checker/README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/debug/accuracy_tools/api_accuracy_checker/README.md b/debug/accuracy_tools/api_accuracy_checker/README.md index c9de471ec..1e3aeb089 100644 --- a/debug/accuracy_tools/api_accuracy_checker/README.md +++ b/debug/accuracy_tools/api_accuracy_checker/README.md @@ -97,6 +97,10 @@ DP.dump.set_dump_switch("ON") 答:请使用最新版本的工具 +3. Dropout算子,CPU和NPU的随机应该不一样,为什么结果比对是一致的? + + 答:这个结果是正常的,工具对该算子有特殊处理,只判定位置为0的位置比例大约和设定p值相当 + # 溢出API解析工具 针对训练过程中的溢出检测场景,对于输入正常但输出存在溢出的API,会在训练执行目录下将溢出的API信息按照前向和反向分类,dump并保存为`forward_info_{pid}.json`和`backward_info_{pid}.json`,前向过程溢出的API可通过该工具对`forward_info_{pid}.json`进行解析,输出溢出API为正常溢出还是非正常溢出,从而帮助用户快速判断。 -- Gitee From afd39a00c4447a38d33d54ac2030eadde9bd83eb Mon Sep 17 00:00:00 2001 From: louyujing Date: Thu, 14 Sep 2023 13:12:35 +0000 Subject: [PATCH 3/5] update debug/accuracy_tools/api_accuracy_checker/README.md. Signed-off-by: louyujing --- debug/accuracy_tools/api_accuracy_checker/README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/debug/accuracy_tools/api_accuracy_checker/README.md b/debug/accuracy_tools/api_accuracy_checker/README.md index 1e3aeb089..a376fca88 100644 --- a/debug/accuracy_tools/api_accuracy_checker/README.md +++ b/debug/accuracy_tools/api_accuracy_checker/README.md @@ -101,6 +101,10 @@ DP.dump.set_dump_switch("ON") 答:这个结果是正常的,工具对该算子有特殊处理,只判定位置为0的位置比例大约和设定p值相当 +4. 为什么浮点型数据bench的npu的dtype不一致? + + 答:对于fp16的数据,cpu会上升一个精度fp32去计算,这是和算子那边对齐的精度结论,cpu用更高精度去计算会更接近真实值 + # 溢出API解析工具 针对训练过程中的溢出检测场景,对于输入正常但输出存在溢出的API,会在训练执行目录下将溢出的API信息按照前向和反向分类,dump并保存为`forward_info_{pid}.json`和`backward_info_{pid}.json`,前向过程溢出的API可通过该工具对`forward_info_{pid}.json`进行解析,输出溢出API为正常溢出还是非正常溢出,从而帮助用户快速判断。 -- Gitee From d33fb13513db31be8644730a5c640aef64812168 Mon Sep 17 00:00:00 2001 From: louyujing Date: Thu, 14 Sep 2023 13:13:24 +0000 Subject: [PATCH 4/5] update debug/accuracy_tools/api_accuracy_checker/README.md. Signed-off-by: louyujing --- debug/accuracy_tools/api_accuracy_checker/README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/debug/accuracy_tools/api_accuracy_checker/README.md b/debug/accuracy_tools/api_accuracy_checker/README.md index a376fca88..c366f5a6c 100644 --- a/debug/accuracy_tools/api_accuracy_checker/README.md +++ b/debug/accuracy_tools/api_accuracy_checker/README.md @@ -101,7 +101,7 @@ DP.dump.set_dump_switch("ON") 答:这个结果是正常的,工具对该算子有特殊处理,只判定位置为0的位置比例大约和设定p值相当 -4. 为什么浮点型数据bench的npu的dtype不一致? +4. 为什么浮点型数据bench和npu的dtype不一致? 答:对于fp16的数据,cpu会上升一个精度fp32去计算,这是和算子那边对齐的精度结论,cpu用更高精度去计算会更接近真实值 -- Gitee From d733c48d2c1804a2c0325c0d11ef5fe5a032834d Mon Sep 17 00:00:00 2001 From: louyujing Date: Mon, 18 Sep 2023 09:31:46 +0000 Subject: [PATCH 5/5] update debug/accuracy_tools/api_accuracy_checker/README.md. Signed-off-by: louyujing --- .../api_accuracy_checker/README.md | 16 +++------------- 1 file changed, 3 insertions(+), 13 deletions(-) diff --git a/debug/accuracy_tools/api_accuracy_checker/README.md b/debug/accuracy_tools/api_accuracy_checker/README.md index 4a585d936..3ee506f04 100644 --- a/debug/accuracy_tools/api_accuracy_checker/README.md +++ b/debug/accuracy_tools/api_accuracy_checker/README.md @@ -133,24 +133,14 @@ Ascend模型精度预检工具能在昇腾NPU上扫描用户训练模型中所 # FAQ -1. 多卡训练dump结果只有一组json,是否为正常现象? - 答:正常来说,多卡训练应该能dump下来与卡数相当的数组json文件,每组都包含forward backward和stack信息。目前在部分流水并行、张量并行场景下,工具的开关无法在每张卡上自动打开,用户需要在训练代码中添加打开工具开关的调用: - - ```Python -import api_accuracy_checker.dump as DP -DP.dump.set_dump_switch("ON") - ``` - - 上述代码要添加在迭代前向的代码段中,或者说是遍历数据集循环的代码段中。如对于GPT-3可以添加在pretrain_gpt.py 的forward_step函数中。之后工具会适配这个场景开关的自动打开。 - -2. run ut过程中出现报错:ERROR:Got unsupported ScalarType BFloat16 +1. run ut过程中出现报错:ERROR:Got unsupported ScalarType BFloat16 答:请使用最新版本的工具 -3. Dropout算子,CPU和NPU的随机应该不一样,为什么结果比对是一致的? +2. Dropout算子,CPU和NPU的随机应该不一样,为什么结果比对是一致的? 答:这个结果是正常的,工具对该算子有特殊处理,只判定位置为0的位置比例大约和设定p值相当 -4. 为什么浮点型数据bench和npu的dtype不一致? +3. 为什么浮点型数据bench和npu的dtype不一致? 答:对于fp16的数据,cpu会上升一个精度fp32去计算,这是和算子那边对齐的精度结论,cpu用更高精度去计算会更接近真实值 -- Gitee