diff --git "a/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" "b/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" index b607ca83900a055218b6991483ad953a0778470e..fd18238dcca33ba0b3fbe063a3df6a8f60431fc6 100644 --- "a/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" +++ "b/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" @@ -489,7 +489,7 @@ StopIteration 2)重新设置环境变量,指定正确的toolkit路径。 -### FAQ24、模型训练时报fill算子错误: RuntimeError: Run:/usr1/workspace/PyTorch_Apex_Daily_c20tr5/CODE/aten/src/ATen/native/npu/utils/OpParamMaker.h:280 NPU error,NPU error code is:500002 +### FAQ24、模型训练时报fill算子错误 * 现象描述 @@ -871,6 +871,46 @@ Python版本不对,执行位置也不对 ![](https://gitee.com/zwx5317131/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq41_0625_fig2.PNG) +### FAQ42、如何确定模型中是否有动态算子 +- 现象描述 +模型训练过程性能越来越低 + +- 原因分析 +可能存在动态算子 + +- 处理方法 + 通过这个命令可以看到算子是否一直在增长,如果一直在增长说明存在动态shape, 需要固定shape +``` +watch -n 1 "ls -ltr kernel_meta/ | wc -l" +``` + +### FAQ43、模型训练过程报ACL stream的错误 +- 现象描述 +没有提示算子报错,只是提示ACL stream的错误 +![](https://gitee.com/zwx5317131/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq43_0714.PNG) + +- 原因分析 +由于Pytorch是异步执行框架,直接print可能无法准确定位到错误的地方,需使用流通步接口辅助打点 + +- 处理方法 +print之前添加如下代码,一步步定位,如果point可以正常打印,说明前一行代码没问题;如果不能正常打印,则上一行应该是错误的地方,需要排查分析 +``` +stream = torch.npu.current_stream() +print(stream.synchronize(),"point") +``` + +### FAQ44、模型刚开始训练没有报错或日志信息,等待时间久 +- 现象描述 +模型刚开始训练时没有报错信息或日志信息,等待时间很久都没反应,不确定训练是否在正常运行 +![](https://gitee.com/zwx5317131/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq44_0714.PNG) + +- 原因分析 +刚开始训练过程,需要编译算子,这一步时间稍长 + +- 处理方法 +(1)可通过top指令查看是否有cpu使用率,如果有使用率,说明正在编译算子 +(2)通过ps -ef|grep python指令查看进程模型进程是否还在,还在的话说明程序正常运行中 +每个模型编译算子耗时时间都不一样,一般耗时会在几分钟内。 ## [2.2 NPU模型分布式运行常见问题FAQ](#22-NPU模型分布式运行常见问题FAQ) diff --git a/figures/model_faq43_0714.PNG b/figures/model_faq43_0714.PNG new file mode 100644 index 0000000000000000000000000000000000000000..0ab32ea8b505d7e609ec2dd0638059d39117ee42 Binary files /dev/null and b/figures/model_faq43_0714.PNG differ diff --git a/figures/model_faq44_0714.PNG b/figures/model_faq44_0714.PNG new file mode 100644 index 0000000000000000000000000000000000000000..0b9f5914b98c5aae7284787b6a85588afbcba516 Binary files /dev/null and b/figures/model_faq44_0714.PNG differ