# 计算中心项目FAQ **Repository Path**: Lin-Bert/aicc-project-guide ## Basic Information - **Project Name**: 计算中心项目FAQ - **Description**: 计算中心项目相关指南参考和常见问题FAQ - **Primary Language**: Python - **License**: WTFPL - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 1 - **Created**: 2021-11-30 - **Last Updated**: 2023-09-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目FAQ ## 前言 为了使各阶段项目能够顺利进展,本FAQ用于规范和记录各项目在开发和云上调试调优过程中所遇到的问题以及解决方案,方便后续其他人员能够快速查阅,缩短问题周期,加快项目开发进度,各位老师可以共同参与问题记录和维护,一起参与到改善优化mindspore框架的队伍中来,将知识和问题沉淀和赋能到众多的社区开发者。 * FAQ维护地址:https://gitee.com/Lin-Bert/aicc-project-guide/tree/master * 计算中心平台学习材料:https://gitee.com/Lin-Bert/aicc-project-guide/tree/master/material * 问题求助流程: #### 方式一 * 登录昇腾社区论坛:https://bbs.huaweicloud.com/forum/forum-1076-1.html * 搜索查询是否有类似问题和解决方案(尝试自行解决) * 根据如下规范发问题求助帖: * 求助帖样例:https://bbs.huaweicloud.com/forum/thread-170993-1-1.html * 发帖图示: ![image-20211130113748852](https://i.loli.net/2021/12/01/a4WhdzUcjQsxuDB.png) * 发完贴后将帖子链接直接发送到华为项目接口人,走紧急处理流程 #### 方式二 [MindSpore gitee官网](https://gitee.com/mindspore/mindspore) 提issue(**判定为mindspore机制bug或者未满足的需求**,须通过issue推动解决) * Step1: 进入MindSpore开源仓新建一个Issue [MindSpore gitee官网新建Issue](https://gitee.com/mindspore/mindspore/issues) ![image-20220330154818783](https://s2.loli.net/2022/03/30/WE8tbxaBAgFH62Z.png) * Step2:按照以下规范填写Issue内容,请点击**“创建”**进入下一步, 请勿直接点击**“创建并继续”**!!! ![image-20220330160332720](https://s2.loli.net/2022/03/30/tZlYFGk6fRS4PXM.png) ![image-20220330160747452](https://s2.loli.net/2022/03/30/jdiGAOw2Ssb6yEl.png) **Tips: mindspore上面issue填写过于复杂,可直接复制以下信息再填入自己的关键内容** ```text ### 问题描述 *****请描述自己的问题 ### 环境信息 - **Hardware Environment(`Ascend`/`GPU`/`CPU`) / 硬件环境**: > Please delete the backend not involved / 请删除不涉及的后端: > /device ascend - **软件环境**: -- MindSpore version (e.g.,r1.6 commit_id=xxxx) : r1.6 -- Python version (e.g., Python 3.7.5) : Python 3.7.5 -- OS platform and distribution (e.g., Linux Ubuntu 16.04): openEuler 21.04 -- GCC/Compiler version (if compiled from source): gcc version 7.3.0 (GCC) - **执行模式(`PyNative`/`Graph`)**: > 请删除不涉及的模式: > /mode pynative > /mode graph ### Describe the expected behavior / 预期结果 ### Related log / screenshot / 日志 / 截图 ``` * Step3:创建好Issue之后需按照以下规范指定**负责人和标签** ![image-20220330161039358](https://s2.loli.net/2022/03/30/fXckCFi2JVM6DYw.png) * Step4:将Issue链接发给华为昇腾大模型研发接口人,推动解决! ## 计算中心平台使用问题 ### 一、计算中心平台使用手册 参见[计算中心平台使用指南](https://gitee.com/Lin-Bert/aicc-project-guide/blob/master/material/%E8%AE%A1%E7%AE%97%E4%B8%AD%E5%BF%83%E5%B9%B3%E5%8F%B0%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97.md) ### 二、云上训练作业常见问题 #### 1. 训练任务创建问题 请参考[计算中心平台使用指南](https://gitee.com/Lin-Bert/aicc-project-guide/blob/master/material/%E8%AE%A1%E7%AE%97%E4%B8%AD%E5%BF%83%E5%B9%B3%E5%8F%B0%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97.md)或者询问自动化所项目组其他成员 #### 2. 训练作业任务一直排队中,不往下进行 * 情况1: 查看当前运行任务,是否节点已不足! * 情况2:节点充足情况下,请将任务job_id发给**华为计算中心FAE**查看 #### 3. 训练作业任务一直卡在初始化,不往下进行 * 情况1:进入Modelarts控制台,点击专属资源池里面的“pool-2782”,点击配置NAS-VPC,将“连通NAS VPC”选项打开(ON状态),确定后再回到训练作业任务处,直接将一直初始化的任务删除,然后重新拉起一个训练任务即可! ![image-20211201171623654](https://i.loli.net/2021/12/01/wFGYMyt8XNg5auS.png) * 情况2:可能是机器的节点出现问题,请将任务job_id发给**华为计算中心FAE**查看 #### 3. 训练任务中的日志不显示(打开一片空白) * 情况1:后台通常只保存七天内的日志,过于久远的日志会自动清楚,这一点需要注意! * 情况2:后台机器容器内存耗尽,请联系华为接口人帮忙查看日志是否存在! #### 4. 训练任务运行中,但迟迟不开启训练 请耐心等待,通常训练任务启动需要一段时间,真正执行训练通常需要等1~30min不等,如果超过30min可选择停止重新拉起训练任务,如果还是不行,请联系华为接口人处理!!! #### 5.