diff --git a/figures/model_faq53_0916.png b/figures/model_faq53_0916.png new file mode 100644 index 0000000000000000000000000000000000000000..734a6f138cb803d9276acfea6f4449ecd2ec17a8 Binary files /dev/null and b/figures/model_faq53_0916.png differ diff --git "a/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" "b/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" index 1741d8b92a2b440f75d2dbd90c977c90fd5f5869..e9f03c7023a70ffc602d3225658738471df973b6 100644 --- "a/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" +++ "b/pytorch-train-guide/Pytorch\350\256\255\347\273\203-FAQ.md" @@ -56,6 +56,7 @@ - [FAQ50、yum 安装软件报错 version `XZ_5.1.2alpha' not found](#faq50yum安装软件报错) - [FAQ51、centos环境安装PyAV报错](#faq51centos环境安装PyAV报错) - [FAQ52、arm环境安装torchvision 0.6.0版本](#faq52arm环境安装torchvision0.6.0版本) + - [FAQ53、arm环境import sklearn和torch冲突](#faq53arm环境import-sklearn和torch冲突) - [2.2 NPU模型分布式运行常见问题FAQ](#22-npu模型分布式运行常见问题faq) - [FAQ1、在模型分布式训练时,遇到报错 host not found.](#faq1在模型分布式训练时遇到报错-host-not-found) - [FAQ2、在模型运行时,遇到eval模式下loss值特别大,过万.](#faq2在模型运行时遇到eval模式下loss值特别大过万) @@ -1026,7 +1027,7 @@ pip3.7 install h5py ![](https://gitee.com/zwx5317131/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq50_0903.PNG) - 原因分析 -从报错信息来看,conda环境下librpmio.so.5软连接指向错误 +从报错信息来看,conda环境下liblzma.so.5软连接指向错误 - 处理方法 根据提示路径,unlink后问题解决 ``` @@ -1108,6 +1109,17 @@ python setup.py install 解决方法是,修改vision源码中的setup.py文件,将if has_ffmpeg改为if False后重新编译就可以了 ![](https://gitee.com/zwx5317131/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq52_fig2_0903.PNG) +### FAQ53、arm环境import sklearn和torch冲突 +- 现象描述 +arm环境,先import torch再import sklearn报错;如果先import sklearn再import torch就不报错 +![](https://gitee.com/zwx5317131/ascend-pytorch-crowdintelligence-doc/raw/master/figures/model_faq53_0916.png) + +- 原因分析 +可能是sklearn arm环境的bug,根据网上的[建议](https://stackoverflow.com/questions/67735216/after-using-pip-i-get-the-error-scikit-learn-has-not-been-built-correctly),先import sklearn可解决 + +- 处理方法 +arm环境先import sklearn,再import torch;对于模型文件,一般在入口脚本的最开始前添加import sklearn即可 + ## [2.2 NPU模型分布式运行常见问题FAQ](#22-NPU模型分布式运行常见问题FAQ) ### FAQ1、在模型分布式训练时,遇到报错 host not found.