登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
登录
注册
代码拉取完成,页面将自动刷新
当前仓库属于暂停状态,部分功能使用受限,详情请查阅
仓库状态说明
开源项目
>
人工智能
>
AI-人工智能
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
44
Star
172
Fork
529
Ascend
/
mstt
暂停
代码
Issues
0
Pull Requests
161
Wiki
统计
流水线
服务
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
我知道了,不再自动展开
877
【bugfix】mindspore梯度工具流水线并行dump梯度值问题修复
已合并
MooYeh:develop
Ascend:develop
MooYeh
创建于 2024-05-20 19:42
克隆/下载
HTTPS
SSH
复制
下载 Email Patch
下载 Diff 文件
背景:MindSpore静态图运行分为编译和运行两个步骤,python代码相关计算逻辑能够在编译阶段确定的信息将在编译阶段被确定,编译阶段不能确定的在计算阶段被确定,梯度工具在比编译之前插入统计量计算的逻辑吗,这导致其获取的部分信息和运行态存在差异。 1. 在流水线并行场景下,优化器construct函数输入的gradients在编译阶段对所有device都可见,通过编译过程能够确定的信息对所有gradients有效; 2. 然而在图运行过程中,通过切分之后,不同卡访问的gradients不同,对不在本device上的gradients计算统计量的逻辑将在后端被去除; 由于以上原因,这导致当优化器construct中输入的梯度值在实际运行态并不在本device上时,梯度工具对其计算统计量将无效,dump的数据格式不符合预期。本PR对这个问题进行修复,使能计算逻辑在对不属于本device上的梯度值进行计算的逻辑仍旧能够正常编译运行,但是dump格式不符合预期,并最终过滤掉dump的无效不属于本device上的数据。 【测试结果】 测试模型:llama2-7b 并行策略:dp=1, mp=2, pp=2 dump配置(param_list一个在第一个stage,一个在第二个stage):  结果分析: rank0 & rank1包括其中一个param梯度统计值  rank2 & rank2包括宁一个param梯度统计值 
怎样手动合并此 Pull Request
git checkout develop
git pull https://gitee.com/mooyeh/att.git develop
git push origin develop
评论
8
提交
1
文件
1
检查
代码问题
0
批量操作
展开设置
折叠设置
审查
Code Owner
审查人员
wuyulong17
wuyulong11
沃文杰
wo-wenjie
zhaozepeng
zhaozepeng
MooYeh
mooyeh
李天
litian_drinksnow
188******92
sunboquan
周先琪
zhou-xianqi
jiangchangting1
jiangchangting1
梅飞要
mei-feiyao
panyj1993
panyj1993
wangkaizju
wangkaizju
Do丶
wangshiling_yxg
HuiYu
monaleila
liangchaoming
aerfaliang
李斌
jsez-li-bin
penxie
xiepeng20
裘凯达
cudi
user_10012209
cai-weiwei1989
yinglinwei
roger-comeon
吴瑞
curry3
liupengcheng
leo920320
i-robot
I-am-a-robot
AtlasAccount
atlasaccount
端明亮
brightlyking
wangchao
wangchao285
hekunkun
kun_8
姚晗
yaohan404
feng123www
feng123www
uniteone
uniteone
HuaweiAscend
HUAWEI-ASCEND_admin
未设置
最少人数
0
测试
wuyulong17
wuyulong11
沃文杰
wo-wenjie
zhaozepeng
zhaozepeng
MooYeh
mooyeh
李天
litian_drinksnow
188******92
sunboquan
周先琪
zhou-xianqi
jiangchangting1
jiangchangting1
梅飞要
mei-feiyao
panyj1993
panyj1993
wangkaizju
wangkaizju
Do丶
wangshiling_yxg
HuiYu
monaleila
liangchaoming
aerfaliang
李斌
jsez-li-bin
penxie
xiepeng20
裘凯达
cudi
user_10012209
cai-weiwei1989
yinglinwei
roger-comeon
吴瑞
curry3
liupengcheng
leo920320
i-robot
I-am-a-robot
AtlasAccount
atlasaccount
端明亮
brightlyking
wangchao
wangchao285
hekunkun
kun_8
姚晗
yaohan404
feng123www
feng123www
uniteone
uniteone
HuaweiAscend
HUAWEI-ASCEND_admin
未设置
最少人数
0
优先级
不指定
严重
主要
次要
不重要
标签
ci-pipeline-passed
ascend-cla/yes
lgtm
approved
关联 Issue
未关联
Pull Request 合并后将关闭上述关联 Issue
里程碑
未关联里程碑
参与者
(5)
Python
1
https://gitee.com/ascend/mstt.git
git@gitee.com:ascend/mstt.git
ascend
mstt
mstt
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
评论
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册