diff --git "a/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" "b/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" index 81332c1146028f4ea7c84878a89f5f18bc942890..d64b9248aa6d4d7d9127acf565a7bca24121185d 100644 --- "a/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" +++ "b/AscendPytorch\346\250\241\345\236\213\344\274\227\346\231\272FAQ.md" @@ -434,6 +434,7 @@ StopIteration 1)将fill算子输入的类型改成int32。 + ## [2.2 NPU模型分布式运行常见问题FAQ](#22-NPU模型分布式运行常见问题FAQ) ### FAQ1、在模型分布式训练时,遇到报错 host not found. @@ -450,4 +451,17 @@ StopIteration 在运行脚本中设置正确的IP地址,对于单机情况,设置为本机的IP即可;对于多机情况,每个服务器上脚本中的IP需要设置为master节点的IP。 +### FAQ2、在模型运行时,遇到eval模式下loss值特别大,过万. + +* 现象描述 +![](https://gitee.com/wangjiangben_hw/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq2_0201.png) + + +* 原因分析 + + 通过打印输入、查看数据集,降低loss_scale等方式均没有效果,通过重装torch和apex解决,该问题应该是包的版本不匹配引起的 + +* 处理方法 + + 重装环境中的torch和apex,问题得到解决。 diff --git a/figures/model_faq2_0201.png b/figures/model_faq2_0201.png new file mode 100644 index 0000000000000000000000000000000000000000..cfeb1129522fc980bf885b88c54c0b7ba79dbe65 Binary files /dev/null and b/figures/model_faq2_0201.png differ