From f4f2a5ce98edf1fb3f885980a058ef4644bcb6fb Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Mon, 7 Apr 2025 15:51:47 +0800 Subject: [PATCH 01/14] =?UTF-8?q?=E8=BF=AD=E4=BB=A3=E4=B8=80=E9=9C=80?= =?UTF-8?q?=E6=B1=82-dp=E7=9B=B8=E5=85=B3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .idea/mind-cluster-latest.iml | 4 + .idea/vcs.xml | 6 + .idea/workspace.xml | 124 ++ .../pkg/common/fault_code.go | 15 + .../pkg/server/manager.go | 69 +- q | 1069 +++++++++++++++++ 6 files changed, 1264 insertions(+), 23 deletions(-) create mode 100644 .idea/mind-cluster-latest.iml create mode 100644 .idea/vcs.xml create mode 100644 .idea/workspace.xml create mode 100644 q diff --git a/.idea/mind-cluster-latest.iml b/.idea/mind-cluster-latest.iml new file mode 100644 index 000000000..7ee078df7 --- /dev/null +++ b/.idea/mind-cluster-latest.iml @@ -0,0 +1,4 @@ + + + + \ No newline at end of file diff --git a/.idea/vcs.xml b/.idea/vcs.xml new file mode 100644 index 000000000..35eb1ddfb --- /dev/null +++ b/.idea/vcs.xml @@ -0,0 +1,6 @@ + + + + + + \ No newline at end of file diff --git a/.idea/workspace.xml b/.idea/workspace.xml new file mode 100644 index 000000000..6abc2affa --- /dev/null +++ b/.idea/workspace.xml @@ -0,0 +1,124 @@ + + + + + + + + + + + + + + + + { + "associatedIndex": 1 +} + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + true + + \ No newline at end of file diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go index d2a8463d1..77d8550e6 100644 --- a/component/ascend-device-plugin/pkg/common/fault_code.go +++ b/component/ascend-device-plugin/pkg/common/fault_code.go @@ -124,6 +124,7 @@ var ( RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault) // NetworkFaultCodes is a set that contains all the network fault codes NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode) + faultTriggerChan = make(chan struct{}, 1) ) // fault customization @@ -1184,6 +1185,15 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) { devFaultInfoMapLock.Lock() devFaultInfoMap[devFaultInfo.LogicID] = append(devFaultInfoMap[devFaultInfo.LogicID], devFaultInfo) devFaultInfoMapLock.Unlock() + + // 触发故障处理 + select { + case faultTriggerChan <- struct{}{}: + hwlog.RunLog.Debug("Triggered fault processing") + default: + // 如果通道已满,说明已经有故障在处理中 + hwlog.RunLog.Debug("Fault processing is already in progress") + } } // GetAndCleanFaultInfo get device fault info and clean cache @@ -1668,3 +1678,8 @@ func GetFrequencyFaultLevelAndCodes(mode string, logicId int32) map[int64]FaultT } return result } + +// GetFaultTriggerChan 获取故障触发通道 +func GetFaultTriggerChan() chan struct{} { + return faultTriggerChan +} diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index e07eccd59..90d84403b 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -398,6 +398,29 @@ func (hdm *HwDevManager) separateNPUIDFromDeviceInfoIntoCache() { } } +func (hdm *HwDevManager) handleDeviceInfoUpdate(initTime *time.Time) { + common.LockAllDeviceInfo() + defer common.UnlockAllDeviceInfo() + + if err := hdm.updateAllInfo(); err != nil { + hwlog.RunLog.Error(err) + return + } + + // complete the fault codes that cannot be reported by the event subscribe interface + hdm.mendSubscribeFaultEvents() + hdm.updateDeviceUsedInfo(hdm.groupDevice) + hdm.notifyToK8s(initTime) + + // if node annotation has reset fail devices but all devices are healthy, clear node annotation + hdm.checkNodeResetInfo() + hdm.useVolcanoNotify() + hdm.chipHotReset() + common.DelOnceRecoverFault(hdm.groupDevice) + common.DelOnceFrequencyFault() + common.Synchronize = true +} + // ListenDevice ListenDevice coroutine func (hdm *HwDevManager) ListenDevice(ctx context.Context) { hwlog.RunLog.Info("starting the listen device") @@ -414,7 +437,27 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { if common.ParamOption.CheckCachedPods { go hdm.manager.GetKubeClient().PodInformerInspector(ctx) } + initTime := time.Now() + ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) + defer ticker.Stop() + + // 使用全局故障触发通道 + faultTrigger := common.GetFaultTriggerChan() + + // 启动故障监听goroutine + go func() { + for { + select { + case <-ctx.Done(): + return + case <-faultTrigger: + hwlog.RunLog.Info("Received fault trigger, processing device info update") + hdm.handleDeviceInfoUpdate(&initTime) + } + } + }() + for { select { case _, ok := <-ctx.Done(): @@ -423,29 +466,9 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { } hwlog.RunLog.Info("listen device stop") return - default: - time.Sleep(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) - common.LockAllDeviceInfo() - if err := hdm.updateAllInfo(); err != nil { - hwlog.RunLog.Error(err) - common.UnlockAllDeviceInfo() - continue - } - // complete the fault codes that cannot be reported by the event subscribe interface - hdm.mendSubscribeFaultEvents() - - hdm.updateDeviceUsedInfo(hdm.groupDevice) - hdm.notifyToK8s(&initTime) - - // if node annotation has reset fail devices but all devices are healthy, clear node annotation - hdm.checkNodeResetInfo() - - hdm.useVolcanoNotify() - hdm.chipHotReset() - common.DelOnceRecoverFault(hdm.groupDevice) - common.DelOnceFrequencyFault() - common.UnlockAllDeviceInfo() - common.Synchronize = true + case <-ticker.C: + hwlog.RunLog.Debug("Periodic device info update") + hdm.handleDeviceInfoUpdate(&initTime) } } } diff --git a/q b/q new file mode 100644 index 000000000..5724fd421 --- /dev/null +++ b/q @@ -0,0 +1,1069 @@ +a7a1768 (HEAD -> bugfix, origin/bugfix) 优化日志刷屏;优化写k8s次数 +6448c80 (origin/master, master) runtime dt 3 +a7fa270 runtime dt2 +d72a9df (runtimedt) 【docker runtime】DT +0a0ccb3 (upstream/master) !613 【volcano】【修改说明】volcano重构--增加vnpu处理模块 * 【volcano】【修改说明】volcano重构--调度流程调用修改 +dbde074 !564 【volcano】【修改说明】volcano重构--volcano调度整体调用流程变更 * 【volcano】【修改说明】volcano重构--调度流程调用修改 +dc97cf1 !602 【ascend-device-plugin】【修改说明】刷新故障码 * 【ascend-device-plugin】【修改说明】刷新故障码 +579f3d4 !518 【ascend-device-plugin】【修改说明】add DP DT Merge pull request !518 from zhoupan39/add_dp_dt1 +260fbbc !610 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复 Merge pull request !610 from wangjun/dp_bugfix +48c4d91 !615 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码 +db6f745 !609 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码 +0fd4a64 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复 +349a59a 【ascend-device-plugin】【修改说明】修改魔鬼数 +6c5e79b !605 bugfix: 扫描后未去掉等待三方标记 * bugfix: 扫描后未去掉等待三方标记 +8b4de93 !611 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起 * 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起 +2a2595b 【ascend-device-plugin】【修改说明】add DP DT +f2112ad !601 【nodeD】【pingmesh】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 Merge pull request !601 from Atlas_zxp/master +928fd4c !598 【clusterd】【修改说明】公共故障配置文件加载日志优化 * 【clusterd】【修改说明】公共故障配置文件加载日志优化 +93e252a !597 【修改说明】【ClusterD】补充util package dt用例 && 删除util package未使用函数 * 【ClusterD】补充util package dt用例 && 删除util package未使用函数 +2afba34 !599 确保执行复位才标记busy,防止走不到复位 * 确保执行复位才标记busy,防止走不到复位 +a9303fa 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +d57bf98 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +c5fdd1d !593 bugfix: 节点信息每次复位被清除 * bugfix: return when get phyID error * bugfix: 重复检查canResetDevice * fix cleancode * fix DT * fix review * 防止掉卡场景多次复位 * fix dt * 修复,获取设备状态异常 * fix DT * 防止多次触发该更新标签;设备信息去重 * 仅为A3设备添加关联ID * bugfix: 节点信息每次复位被清除 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修复DT * 【ascend device plugin】修改函数名 * 【ascend device plugin】A3复位后的处理逻辑和之前保持一致 * 【ascend device plugin】A3按最小粒度检查是否恢复 +fa886f5 !594 【clusterd】【修改说明】添加公共故障配置文件校验及故障数量上限 * 【clusterd】【修改说明】公共故障配置文件校验及故障上限添加 +aed3cab !585 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 Merge pull request !585 from wangjun/dp_bugfix +46e76ab !591 【修改说明 Modification】如果没有收集到数据,认为卡状态未知,handler初始化失败时不加入结果处理队列 Merge pull request !591 from Atlas_zxp/master +da0556f !575 微重构-调整方法位置 * 微重构-调整方法位置 * Merge remote-tracking branch 'origin/volcano' into volcano * 微重构-调整方法位置 * 微重构-调整方法位置 * DT测试 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * DT测试 +1ab919a !595 【修改说明】【ClusterD】pingmesh 日志优化 * fix log +d1d27fa !590 [npu-exporter]logger简化调用方式 * [npu-exporter]logger优化 +851e9b9 !589 [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言 * [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言 +3e12a68 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +f1cf749 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +cd5dc47 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +0dabcea 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +cb8d719 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +6682dde 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 +b3b1222 【修改说明 Modification】DT 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +a480908 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 +4d6b01f (tag: v7.0.RC1.B050) !583 taskd monitor第三部分 * profiling taskd业务代码 +434f0f3 !582 profiling taskd monitor第二部分 * profiling taskd业务代码 +9a044ad !546 profiling taskd业务代码 * profiling taskd业务代码 +d884a37 !548 profiling dp-clusterd相关功能 * profiling dp-clusterd相关功能 +82edf4a !580 【nodeD】【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 * 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 +5d8b796 !579 【ascend device plugin】带外复位逻辑完善 * 【ascend device plugin】A3按最小粒度检查是否恢复 +f8899d6 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +f636402 !560 【修改说明】【ClusterD】超节点设备信息发布逻辑 * fix * fix comment * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * fix comment * fix dt * fix * fix * clean code * add node event func * init pingmesh application +9b63373 !573 【修改说明】【clusterD】优化任务信息处理逻辑,CM字段 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 +0e7cc75 !576 【clusterd】【修改说明】日志及字段优化 * 【clusterd】【修改说明】日志及字段优化 +5f3fd2b !569 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度 Merge pull request !569 from YangLei/master +ac98fc0 【ascend device plugin】修改DT +b50b76c 【ascend device plugin】修改DT +bae72e4 【ascend device plugin】修改检视 +2393616 【ascend device plugin】修改检视 +8af3b82 !567 【修改说明 Modification】存在未回复的ping,忽略该次结果 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】存在未回复的ping,忽略该次结果 +75852a4 !570 【volcano】【修改说明】volcano重构--日志调整 * 【volcano】【修改说明】volcano重构--日志调整 +b46889d !536 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块 +5c1f838 !563 【volcano】【修改说明】volcano重构--test用例补充 * 【volcano】【修改说明】volcano重构--test用例修改 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 +2fbab58 !568 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息 * 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息 +41e7609 !558 【ascend-device-plugin】【修改说明】yaml挂载localtime * 【ascend-device-plugin】【修改说明】yaml挂载localtime +153d7dd !559 【taskd】【修改说明】设置构建包版本 * 【taskd】【修改说明】设置构建包版本 +78dea97 (dev) 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度 +ad18d17 Merge branch 'master' of https://gitee.com/ascend/mind-cluster +0e1df89 !550 【ascend device plugin】离线复位适配带外,推理复位写节点注释 * 【ascend device plugin】修改DT * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修改检视 * 【ascend device plugin】补充DT * 【ascend device plugin】修复DT报错 * 【ascend device plugin】离线复位适配带外,推理复位写节点注释 +70bf2e3 【ascend device plugin】修改DT +a6fa251 !565 【修改说明】【clusterD】支持指标统计,DT代码上库 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 +c849110 !547 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 +c8943af 【ascend device plugin】修复DT问题 +14f90ac 【ascend device plugin】修复DT问题 +e00dd9a 【ascend device plugin】修复DT问题 +8949e83 【ascend device plugin】修改检视 +93ec0a6 !562 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh +954df6e !551 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 +f857455 !530 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh +073ccd2 !561 【device-plugin】【修改说明】dp增加kubelet重注册机制 * re register to kubelet when connect failed +fc4dacd !555 1. 【clusterd】【修改说明】修复clusterd启动后存在5min功能异常问题 * 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块 +890ef45 !557 【clusterd】【修改说明】对外展示公共故障时间戳单位为秒 * 【clusterd】【修改说明】对外展示公共故障时间戳为秒 +aa11a44 !554 telegraf增加vnpu相关指标 * fix * fix * fix * fix * fix * [npu-exporter]telegraf上报vnpu * [npu-exporter]telegraf上报vnpu * [npu-exporter]调整telegraf更新接口 * [npu-exporter]调整一下vnpu相关 * [npu-exporter]容器相关指标调整 +f9cb3a2 !553 【device plugin】recovertimeout范围修改 * 【修改说明】recovertimeout范围修改 +fd8de06 【ascend device plugin】补充DT +b4dfee0 !508 【taskd】 cleancode python文件缩进格式及空行修改 Merge pull request !508 from 郭鹏鑫/master +2cd965e taskd cleancode 文件单双引号统一 +6ccd629 Revert "taskd cleancode DT构建失败修改" +d0f94fd !545 【volcano】【修改说明】volcano重构--数据初始化模块优化 Merge pull request !545 from fengjianqing/vnpu +125ffeb taskd cleancode DT构建失败修改 +56f81c9 !533 【device-plugin】【修改说明】node annotation 增加超节点id信息 * add super node id info on node annotation +f78b7f5 !532 【clusterd】【修改说明】domain层维护超节点设备信息 * change superNode to superPod +1a5271e Merge branch 'master' into cleancode +980e824 【ascend device plugin】修复DT报错 +de24c0a 【ascend device plugin】离线复位适配带外,推理复位写节点注释 +c7fc19e 【volcano】【修改说明】volcano重构--plugin目录优化 +946f0b2 Merge https://gitee.com/ascend/mind-cluster into vnpu +11ccf00 【volcano】【修改说明】volcano重构--plugin目录优化 +2a5ee28 !542 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例 * 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例 +0fe363e !544 【nodeD】noded支持pingmesh-wather、executor及编译、部署适配 * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】noded支持pingmesh-wather、executor * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into pi… * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh +f35892d 【volcano】【修改说明】volcano重构--数据初始化模块优化 +9b7376c !539 【clusterd】【修改说明】【微重构】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 +483da08 !540 【clusterd】【修改说明】变更公共故障时间戳单位为ms Merge pull request !540 from weihaoran/pub_ms2 +02a7911 !541 【DCMI】【hwlog】hwlog增加CustomLogger接口,DCMI-pingemsh接口补充 * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh +a9991f0 !526 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 +3735526 !434 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 +945f4ef 【clusterd】【修改说明】变更公共故障时间戳单位为ms +a579686 !535 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volcano的故障reason有PublicFault就显示PublicFault * 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volc… +8d3ad24 !534 【ascend device plugin】检查到设备健康就清除复位计数 Merge pull request !534 from YangLei/master +c0f0dfa 【ascend device plugin】检查到设备健康就清除复位计数 +25bf1bf !523 【ascend device plugin】训练在线复位增加带外复位 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】增加DT * 【ascend device plugin】增加DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复clean coded * 【ascend device plugin】优化代码逻辑 * out band reset for train online, try out band and update node annotation * temp dev 0226 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复编译问题 * fix build error * 【ascend device plugin】修复cleancode * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步 * 【ascend device plugin】类重命名,职责最小化 +59261ac !529 【clusterd】【修改说明】公共故障码更新 * 【clusterd】【修改说明】公共故障码更新 +73a7a8a !525 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存 +dba19e7 !522 [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]clean * [npu-exporter]clean * [npu-exporter]DT * [npu-exporter]DT * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整 +abd38ba !517 [npu-exporter] implement vNPU metrics support * added nil check before dereferencing * implemented CollectToCache and UpdatePrometheus for vNPU * use activityVDev copy instead of same variable +ddcfb96 taskd cleancode python文件缩进格式及空行修改 +ec767a2 !519 【ascend device plugin】1. 添加dcmi接口 2. 修改类名 * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步 +1f2c1fb !521 【clusterd】【修改说明】【微重构】needDeleteQueue类上移 * 【clusterd】【修改说明】needDeleteQueue类上移 +c315c9f !520 【clusterd】【修改说明】公共故障description正则修改 * 【clusterd】【修改说明】公共故障description正则修改 +3e91efe !501 【修改说明 Modification】增加hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 +aed59e8 !512 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复 Merge pull request !512 from wangjun/dp_bugfix +85d13c1 !516 [npu-exporter]DT * [npu-exporter]DT +2f9cbc9 !513 [npu-exporter]fix:极端场景下的高并发问题、process指标label中补充containerID信息 * [npu-exporter]fix:极端场景下的高并发问题 +a347698 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复 +61a2ad2 !457 【ascend device plugin】周期检查复位失败标记,判断是否清除 * 【ascend device plugin】解冲突 * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】DT * 【ascend device plugin】修复检视意见 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】每张卡的复位状态独立,分别通过数组保存三方复位的芯片和人工复位的芯片 * Revert "【ascend device plugin】修复clean code导包顺序" * 【ascend device plugin】修复clean code导包顺序 * 【ascend device plugin】修复clean code和编译问题 * 【ascend device plugin】周期检查复位失败标记,判断是否清除 +ad2bbcf !511 【clusterd】【修改说明】公共故障校验日志优化 Merge pull request !511 from weihaoran/pub_log2 +e779f82 !472 【volcano】【修改说明】volcano重构--重调度模块简化一 Merge pull request !472 from fengjianqing/fault +18c88c6 !499 【clusterd】【修改说明】新增公共故障码 * clusterd支持统一故障推送 +3cc9268 联调包 +e0723d0 !506 【device-plugin】【修改说明】dp创建containerd客户端初始化优化及dt补充 Merge pull request !506 from wangjun/dp_micro_refactor +07e2263 【device-plugin】【修改说明】dp创建containerd客户端初始化优化 +3eb429f taskd cleancode python文件缩进格式及空行修改 +5b511e8 !509 构建包添加yaml文件 Merge pull request !509 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms +f8132b5 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms +f7bc10c 构建包添加yaml文件 +3770242 !505 【clusted】【修改说明】完善公共故障信息打印 * clusterd支持统一故障推送 +8aa6e65 taskd cleancode python文件缩进格式及空行修改 +ca09b00 !504 【device-plugin】【修改说明】cleanCode修改 Merge pull request !504 from wangjun/dp_cleancode +ebf9cae !503 [npu-exporter]cleanCode修改 * [npu-exporter]cleanCode修改 +ffd86fc !502 【volcano】【修改说明】not stable条件修改 * clusterd支持统一故障推送 +7b942c2 【device-plugin】【修改说明】cleanCode修改 +658251a Merge remote-tracking branch 'origin/master' +43f8db2 !498 【device plugin】【clusterd】【taskd】【volcano】【common】clean-code整改 * 【修改说明】cleancode +85ab90a Merge remote-tracking branch 'origin/master' +6e073e0 【修改说明】cleancode-数组下标越界 +78f378d !497 clusterd支持统一故障推送 Merge pull request !497 from weihaoran/pub_opti3 +eb7b28c clusterd支持统一故障推送 +0896060 【修改说明】cleancode +aa61915 !496 【device-plugin】【修改说明】dp与容器通信yaml修改 * 【device-plugin】【修改说明】dp与容器通信yaml修改 +5980077 !494 clusterd支持统一故障推送 * clusterd支持统一故障推送 +3d822e7 !491 日志库回滚策略配置提交 * 日志库回滚策略配置 +1725473 !493 增加init * Merge remote-tracking branch 'upstream/master' into feature/grace_tole… * 包增加init * 包增加init +a362a83 !492 clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 +5d1e0aa Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms +d9a6815 包增加init +de86009 包增加init +9994827 【volcano】【修改说明】volcano重构--重调度模块简化一 +4d8bb82 !490 增加ms进程级恢复 Merge pull request !490 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms +4159456 !470 【修改说明】【clusterd】clusterd支持故障统一推送 * clusterd支持统一故障推送 +f593dd2 增加ms进程级恢复 +3625d9b Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms +3651ee6 !489 增加故障恢复模块及grpc * 增加故障检测和恢复模块 +fd0db7e 增加故障检测和恢复模块 +b614ba5 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms +6954feb 增加故障检测和恢复模块 +b332b99 !469 初始化taskd 基础代码 * dt修改 & 检视修改 +21d244b !488 【npu-exporter】重构拆分5 * 2 * 2 +914753b !487 【npu-exporter】重构拆分4 Merge pull request !487 from dongpeng30/refactor_4 +c5e53b9 dt修改 & 检视修改 +1a84a89 !483 【device-plugin】【修改说明】dp请求apiserver与初始化客户端冲突问题处理 Merge pull request !483 from wangjun/dp_apiserver_fix +74b0674 dt修改 & 检视修改 +ca968da !486 【npu-exporter】重构拆分3 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1 +6e823ef !479 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复 +9e23978 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms +3267ba5 dt修改 & 检视修改 +b876475 !468 【taskd】【修改说明】上传日志模块基础代码 * 上传日志模块基础代码 +2c9dd02 dt修改 & 检视修改 +5e66424 dt修改 & 检视修改 +ea8aaf6 dt修改 & 检视修改 +d67d845 !485 【npu-exporter】重构2 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1 +fd6535b !484 【修改说明】npu-exporter重构拆分1 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1 +d44177b !481 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务 Merge pull request !481 from fengjianqing/debug +736d9b5 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务 +59a083d !478 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 +f6bd880 !476 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 +d61aea6 !474 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 +b424637 !475 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 +11b8af0 【volcano】【修改说明】volcano重构--重调度模块简化一 +b87a535 dt修改 & 检视修改 +9fb083a !467 noded通过ipmi获取sn信息并写入node的annotation上 Merge pull request !467 from wuweilin/master-0215 +fd13272 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms +1da950b noded通过ipmi获取sn信息并写入node的annotation上 +4cfd5a9 !466 【device-plugin】【修改说明】dp组件日志刷屏问题修复 Merge pull request !466 from wangjun/dp_log +401b090 !431 【修改说明】整机调度优化通过端口获取Pod信息 * 【修改说明】整机调度优化通过端口获取Pod信息 +ba93674 上传msmgr +6765263 修改包路径 +727f42d !458 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 +fccf7bb !465 【volcano】【修改说明】A3 A+X亲和性调度 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * Merge remote-tracking branch 'origin/master' into a+x-dt * 【volcano】【修改说明】A3 A+X亲和性调度 DT补充 * 【volcano】【修改说明】支持A3 A+X亲和性调度 +1d6d581 !453 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 +d259dfa elastic agent原始代码迁移 +b9a7a58 !438 switch适配修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * dt修复 * 检视修改 * 修改日志打印 * 修改打印 * 修改dt * 修改dt * 修改dt * switch适配修改 dt * 适配逻辑修改 * switch适配修改 * 修改common库路径使得其他仓库可以引用 +3cf6237 【device-plugin】【修改说明】dp组件日志刷屏问题修复 +e2c7118 【device-plugin】【修改说明】dp组件日志刷屏问题修复 +049918a !454 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * Merge https://gitee.com/ascend/mind-cluster into 330 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 +d7bb1a7 【device-plugin】【修改说明】dp组件日志刷屏问题修复 +3a06eb4 !444 【修改说明】[clusterd]-cleancode * 【修改说明】[clusterd]-cleancode +b852283 !449 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程 * 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程 +9839d35 !436 【taskd】【修改说明】taskd初始化提交 * taskd初始化提交 +aeef459 !440 修改故障码 * 修改故障码 +02bb3bd !455 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy * 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy +6a6b09f !448 【clusterd】【修改说明】add test for recover plugin * add test for recover plugin +6e1053d !447 【clusterd】【修改说明】add test for controller * ut +3f977c5 !452 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 +98be6af !451 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报 * 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报 +9692227 !446 【clusterd】【修改说明】add test for recover service * comment fix +8376d71 !437 【修改说明】增加cardID、deviceID缓存 * 【修改说明】增加cardID、deviceID缓存 +17756d8 !429 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录分层 +96b8dde !439 修改0x08520003 增加na * 修改0x08520003 增加na +69042ec !425 【修改说明】[clusterd]cleancode * 【修改说明】[clusterd]-cleancode +61f6574 !435 【volcano】【修改说明】volcano重构--删除冗余代码 * 【volcano】【修改说明】volcano重构--删除冗余代码 +09f7ebc !432 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】【NodeD】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 +5ec771a !397 【ClusterD】仅支持dump场景直接通知mindio保存ckpt * 【ClusterD】仅支持dump场景直接通知mindio保存ckpt +b876f86 !423 【ascend-for-volcano】适配clusterd主动保存ckpt场景 * 【ascend-for-volcano】适配clusterd主动保存ckpt场景 +9b69604 !426 【修改说明】【clusterD】DT用例 clean code * 【修改说明】【clusterD】DT用例 clean code +75113e1 !427 【修改说明】[clusterd]faultmanager重构-bugfix * 【修改说明】[clusterd]faultmanager重构-bugfix +966d12a !414 【修改说明】[clusterd]faultmanager重构-faultmanager的功能下沉到faultdomain中 * 【修改说明】[clusterd]faultmanager重构-处理v6 rebase on v5 +d31b111 !413 【修改说明】[clusterd]faultmanager重构-job fault rank、fault job、cmmanager、各个center单独提出来。 * 【修改说明】[clusterd]faultmanager重构-v5 rebase on v4 处理冲突 +cfb6827 !412 【修改说明】[clusterd]faultmanager重构-uce_accompany单独提出来。 * 【修改说明】[clusterd]faultmanager重构-cleancode +b270c67 !424 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test * 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test +b315c7e !410 【修改说明】[clusterd]faultmanager重构-DT * 【修改说明】[clusterd]faultmanager重构-dt +5896898 !407 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来 Merge pull request !407 from lirui238/fm-refactor-v3 +c844a6d !416 【修改说明】【ClusterD】complete grpc common package DT test * add DT +b87310f !420 【volcano】【operator】【clusterD】clean-code整改 * 【修改说明 Modification】clean-code +8538344 !417 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 +063cbf0 !405 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网 * 【修改说明】[operator] 修改变量设置值,以及优化日志 * Merge remote-tracking branch 'origin/master' into dynamic-hccs-env * 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网 +be4875a !411 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * Merge branch 'master' of https://gitee.com/shepherd_cheung/mind-cluster * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 +468d02b !409 【修改说明】【ClusterD】bug fix for div zero * add div zero check * fix devicePerNode is 0 +7fb4ed1 !358 【修改说明】【ClusterD】add grpc common package DT test * fix test name * fmt * fmt * change Ltd time * fix test * add test * add test * add test * init logger * add dt test +36f7c08 !401 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 +83fca4c 【修改说明】[clusterd]faultmanager重构-bugfix +6ffe87f 【修改说明】[clusterd]faultmanager重构-dt +5c0a5c6 【修改说明】[clusterd]faultmanager重构-bugfix +29776c5 【修改说明】[clusterd]faultmanager重构-codecheck +ca08fe6 【修改说明】[clusterd]faultmanager重构-根据cm更新,判断是否需要处理 +f0f916c 【修改说明】[clusterd]faultmanager重构-从pg获取resource type +5bf0a71 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来 +825506b 【修改说明】[clusterd]将informer缓存起来,防止丢失故障信息 +c93909f !394 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 +cfbcfd4 !361 【ascend-operator】微重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 +f58964a !391 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。 Merge pull request !391 from lirui238/manuallysparatenpu-handle +b389c85 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。修复检视意见。 +1f0a7f0 !373 【volcano】【修改说明】算力切分支持B2模板 Merge pull request !373 from fengjianqing/master +599fb51 !392 【修改说明】【noded】clean-code修改 Merge pull request !392 from weihaoran/noded-cleancode +06a5cd1 【volcano】【修改说明】算力切分支持B2模板 +aaf1035 !393 【修改说明】cleancode-格式化 * 【修改说明】cleancode-格式化 +4f736b4 !390 【volcano】【修改说明】补充DT用例 * 【修改说明】cleancode问题修改 * 【修改说明】cleancode问题修改 * 【修改说明】补充DT用例 +343565c 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。 +be09550 !382 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。 * 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。 +29cd535 !383 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * Merge branch 'master' of gitee.com:ascend/mind-cluster * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * 【修改说明】整体利用率、pciebandwidth指标刷屏-todo +803c3ba !379 job重构DT补充吗,去掉-race Merge pull request !379 from wuweilin/master-0107 +2b4aa5a !386 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作' Merge pull request !386 from luxiang6/revert-merge-338-master +64d72d5 (upstream/revert-merge-338-master, origin/revert-merge-338-master) 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作' +07a420a !362 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。 Merge pull request !362 from lirui238/uce-accompany-fix +f33e386 !375 【volcano】【修改说明】补充DT用例 Merge pull request !375 from wangjun/master +c088c49 !370 【device-plugin】【修改说明】 补充DT用例 Merge pull request !370 from 郭鹏鑫/DT +143f4c3 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。检视意见 +dd3642f 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。用例设计 +b94e225 Merge remote-tracking branch 'gpx/DT' into DT +c2fda3c 【修改说明】device-plugin kubeclient 补充DT用例 +d5eb93b Merge remote-tracking branch 'origin/master' into DT +07cda12 【修改说明】device-plugin kubeclient 补充DT用例 +63203d3 Merge remote-tracking branch 'gpx/DT' into DT +05b8917 【修改说明】device-plugin kubeclient 补充DT用例 +36bb23f 【修改说明】device-plugin kubeclient 补充DT用例 +433e7a2 !378 【修改内容】【volcano】增加DT用例 * 【修改内容】【volcano】增加DT用例 +aa56882 !356 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 +8baf65f 【修改说明】device-plugin kubeclient 补充DT用例 +d446766 !377 【修改说明】noded剩余ut补充 * 【修改说明】noded剩余ut补充 +6278e62 Merge remote-tracking branch 'gpx/DT' into DT +b750d60 【修改说明】device-plugin kubeclient 补充DT用例 +b12a160 job重构DT补充吗,去掉-race +3bfc81e !338 【修改说明】去除更新fault-config-cm的冗余操作 * 【修改说明】去除更新fault-config-cm的冗余操作 +218c1b0 !128 【轻量级 PR】:support pod that has multiple containers and only one of containers has NPU Merge pull request !128 from kingeasternsun/fix/get-aicorenum-fromtask +5df28dc !127 【轻量级 PR】:getVirTemplate 中 virTemplate 参数无用 Merge pull request !127 from kingeasternsun/improve/get-vir-template +8dad30b 【修改说明】补充DT用例 +358cbd4 【修改说明】补充DT用例 +3aac3df Merge branch 'master' of gitee.com:ascend/mind-cluster into DT +91a1bdd 【修改说明】device-plugin kubeclient 补充DT用例 +cc9ac3d !366 【修改内容】Volcano增加DT用例 Merge pull request !366 from wangjun/master +c5b9804 !365 job重构DT补充 Merge pull request !365 from wuweilin/master-1228 +6415e33 job重构DT补充 +d36e349 !364 【修改内容】Volcano增加DT用例 * 【修改内容】增加DT用例 +508bf2c !369 【volcano】【修改说明】补充DT用例 Merge pull request !369 from fengjianqing/master +3cf1b1d 【修改说明】补充DT用例 +1243238 【修改说明】补充DT用例 +768f251 !367 【修改说明】cleancode修改-33 * 【修改说明】cleancode修改-33 +2be4d6d 【volcano】【修改说明】补充DT用例 +a4f9996 【修改说明】device-plugin kubeclient 补充DT用例 +8420263 【修改说明】device-plugin kubeclient 补充DT用例 +3de247a 【修改说明】device-plugin kubeclient 补充DT用例 +da64a1c 【修改说明】device-plugin kubeclient 补充DT用例 +9fd81b5 【修改说明】device-plugin kubeclient 补充DT用例 +9262b0e 【修改说明】补充DT用例 +f331bd0 【修改说明】补充DT用例 +5bb1fb6 【修改说明】device-plugin kubeclient 补充DT用例 +c2687e9 【修改说明】device-plugin kubeclient 补充DT用例 +d10c65d !363 【volcano】【修改说明】补充DT用例 Merge pull request !363 from fengjianqing/master +ec5d7a4 【修改说明】补充DT用例 +5d2300d 【修改说明】补充DT用例 +1ff8a96 【修改说明】补充DT用例 +afc138f 【修改说明】补充DT用例 +a5cc2ca 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。 +639da31 !357 job重构DT补充 Merge pull request !357 from wuweilin/master-1228 +8948a82 job重构DT补充 +dbdc0e0 【volcano】【修改说明】补充DT用例 +2db478f !348 【修改说明】noded config包、kubeclient包DT补充 * 【修改说明】noded config包、kubeclient包ut补充 +7986814 !321 dt新增用例 Merge pull request !321 from fengjianqing/master_fix +9fff6da !360 【volcano】【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 +a0a3454 !329 【修改内容】仓库名称修改 Merge pull request !329 from luxiang6/master +466bac7 !355 【device-plugin】【修改说明】修改DT用例 Merge pull request !355 from zhoupan39/master +d5d6c9b !359 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例 +cbb442f !346 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例 +259268d 【device-plugin】【修改说明】多个打桩函数写入一个变量 +5958268 【volcano】【修改说明】补充DT用例 +bfec1dc 【device-plugin】【修改说明】修改DT用例 +0be6539 !354 【volcano】【修改说明】补充DT用例 Merge pull request !354 from wangjun/volcano_dt3 +2af9963 !353 【volcano】【修改说明】补充DT用例 Merge pull request !353 from wangjun/volcano_dt2 +03c9571 !352 【volcano】【修改说明】补充DT用例 Merge pull request !352 from wangjun/volcano_dt +0528b4f 【修改说明】补充DT用例 +92ec347 【修改说明】补充DT用例 +1d4724c 【修改说明】补充DT用例 +76cb663 当任务变更成failed或者completed状态时,新增deleteTime +1ec1774 !345 【device-plugin】【修改说明】补充DT用例 Merge pull request !345 from zhoupan39/dt2 +80eca72 !319 【device-plugin】【修改说明】补充DT用例 Merge pull request !319 from zhoupan39/master +cbbda0e 【device-plugin】【修改说明】补充DT用例 +e1dc166 【device-plugin】【修改说明】补充DT用例-第二批 +b2b3727 !340 【修改说明】noded common包ut补充 * 【修改说明】noded common包ut补充 +93264bb !326 【修改说明】[clusterd]增加ut Merge pull request !326 from lirui238/clusterd-faultmanager-ut +f1e6a64 !337 job重构DT补充 Merge pull request !337 from wuweilin/master-1228 +d854ed0 !313 【device-plugin】【修改说明】 补充DT用例 Merge pull request !313 from 郭鹏鑫/DT +46a8c14 !341 【修改说明】增加DT * 【修改说明】DT +9840460 !333 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 +3e1d53e job重构DT补充 +a3034d9 【修改说明】device-plugin kubeclient 补充DT用例 +e9e789f 【修改说明】device-plugin kubeclient 补充DT用例 +1be5f47 【修改说明】device-plugin kubeclient 补充DT用例 +16fde83 【修改说明】device-plugin server 补充DT用例 +e821708 【修改说明】device-plugin server 补充DT用例 +42aaf70 【修改说明】device-plugin server 补充DT用例 +7f60807 【修改说明】device-plugin server 补充DT用例 +d5a65d0 【修改说明】device-plugin server 补充DT用例 +1284602 【修改说明】device-plugin server 补充DT用例 +36a5026 【修改说明】device-plugin server 补充DT用例 +8a76420 【修改说明】device-plugin server 补充DT用例 +2608296 【修改说明】device-plugin server 补充DT用例 +7df28a4 【修改说明】device-plugin server 补充DT用例 +9b42b26 !335 【修改说明】删除非软件故障pod label Merge pull request !335 from tiankaijin/fixmaster +c54482b 【修改说明】device-plugin server 补充DT用例 +ce3cf2a 【修改说明】device-plugin server 补充DT用例 +c461fd9 【修改说明】device-plugin server 补充DT用例 +e8551be 【修改说明】device-plugin server 补充DT用例 +27b90f4 fix label +f357d03 【修改说明】device-plugin server 补充DT用例 +a8d5b8f 【修改说明】device-plugin server 补充DT用例 +0f2510c 【修改说明】device-plugin server 补充DT用例 +88fb9c0 【修改说明】device-plugin server 补充DT用例 +f104241 【修改说明】device-plugin server 补充DT用例 +02f8701 【修改说明】device-plugin server 补充DT用例 +767742a 【修改说明】device-plugin server 补充DT用例 +7ddb3f5 【修改说明】device-plugin server 补充DT用例 +6b4a600 【修改说明】device-plugin server 补充DT用例 +848634e 【修改说明】device-plugin server 补充DT用例 +a379e0b 【修改说明】device-plugin server 补充DT用例 +9cfdaf0 【修改说明】device-plugin server 补充DT用例 +2bcaed3 【修改说明】device-plugin server 补充DT用例 +cd6007d 【修改说明】device-plugin server 补充DT用例 +261bb7f 【修改说明】device-plugin server 补充DT用例 +6afa791 【修改说明】device-plugin server 补充DT用例 +9c21d5e 【修改说明】device-plugin server 补充DT用例 +d79c0c2 【修改说明】device-plugin server 补充DT用例 +1dd51a8 【修改说明】device-plugin server 补充DT用例 +646238e 【修改说明】device-plugin server 补充DT用例 +6be3116 【修改说明】device-plugin server 补充DT用例 +6984805 【修改说明】device-plugin server 补充DT用例 +9edadca 【修改说明】device-plugin server 补充DT用例 +429e06c Merge branch 'master' of https://gitee.com/luxiang6/mindxdl +d894bc4 改名修改 +e0ba793 !327 【修改说明】[clusterd]修改clusterd关联故障时间 Merge pull request !327 from fengjianqing/tmp +71db399 【修改说明】[clusterd]修改clusterd关联故障时间 +17a93ab 【修改说明】device-plugin kubeclient 补充DT用例 +d71cf65 【修改说明】device-plugin kubeclient 补充DT用例 +1967c7b 【修改说明】device-plugin kubeclient 补充DT用例 +1ff53c4 【修改说明】[clusterd]增加ut +e406e6d !298 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula +85d26da !323 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度 Merge pull request !323 from fengjianqing/tmp +dea302f 【修改说明】device-plugin kubeclient 补充DT用例 +7b25b0e 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度 +07a06c1 !318 【修改说明】支持平台修改策略 & 平台场景去掉等待调度成功逻辑 Merge pull request !318 from tiankaijin/x1fix +9237dd6 【修改说明】device-plugin kubeclient 补充DT用例 +05fa864 fix +8657cd8 !314 【clusterD】【nodeD】clean-code整改 Merge pull request !314 from Atlas_zxp/master-cleancode +fffe7c9 Merge branch 'refs/heads/master' into DT +496be09 fix +169a7b1 !299 【修改说明】[npu-exporter]修复crypto漏洞 Merge pull request !299 from lirui238/crypto-issue +1d6902f !311 【clusterd】【修改说明】文件初始化问题修复 Merge pull request !311 from fengjianqing/master_fix +1748081 【修改说明】device-plugin kubeclient 补充DT用例 +24bd0c9 【修改说明】[npu-exporter]修复crypto漏洞 +7d752dd 【修改说明】device-plugin kubeclient 补充DT用例 +cbff6f7 【修改说明】device-plugin kubeclient 补充DT用例 +ab5110d 【修改说明】device-plugin kubeclient 补充DT用例 +0ab07a8 【修改说明】device-plugin kubeclient 补充DT用例 +fafcafc 【修改说明】device-plugin kubeclient 补充DT用例 +6de0bed 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +6a36e95 【修改说明】device-plugin kubeclient 补充DT用例 +cdf3b96 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +a385ac6 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +0271e91 Merge branch 'master' into DT +d5233d6 【修改说明】device-plugin kubeclient 补充DT用例 +111a1c2 【clusterd】【修改说明】文件初始化问题修复 +f72b526 Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl +bd84944 !309 补充NSLB2.0厂家的masterAddr参数 Merge pull request !309 from wuweilin/master-1221 +c1c2815 !308 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复 +df36db4 补充NSLB2.0厂家的masterAddr参数 +af87c6a !306 【修改说明】等待AI平台ProcessResultFault逻辑去掉长度为0判断 * fix +9d4f4e3 !304 【修改说明】重复label问题修复 * fix * fix +5a8d424 !302 【修改说明】jobName换pgName Merge pull request !302 from tiankaijin/x1 +167cc89 fix +fdfca00 !218 【lssue】Device-Plugin getDeviceFaults增加频率类型网络故障相关代码 Merge pull request !218 from 郭鹏鑫/frequency +52b2347 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix +a1633b2 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix +0124134 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix +2703ade 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix +b51639d 【修改说明】device-plugin kubeclient DT +c24bcec 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充 +9fa8b55 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充 +2318727 !282 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 +af02981 !279 【clusterD】【volcano】【nodeD】【断点续训】nodeD不再上报节点心跳,volcano、clusterD适配修改 Merge pull request !279 from Atlas_zxp/remove-heartbeat +c62786f !293 【volcano】【断点续训】volcano为节点打分时,最低分为0 Merge pull request !293 from Atlas_zxp/cherry-pick-1734601670 +c2d58c6 Merge remote-tracking branch 'upstream/master' +8eee278 【修改说明 Modification】volcano为节点打分时,分布不能为负值 (cherry picked commit from +ee08ddd 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +2616428 !284 【clusterd】【修改说明】修复多次打印日志的问题 Merge pull request !284 from wsy/111master +7388014 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +532afff 【修改说明】device-plugin frequency 整卡故障和网络故障区分 +6f530ff 【修改说明 Modification】nodeD不再上报节点心跳,volcano、clusterD适配修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +3e5af31 【修改说明】device-plugin frequency 整卡故障和网络故障区分 +84ec8bd 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +4f10786 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +6c39987 Merge branch 'master' into frequency +fc82b1f Merge remote-tracking branch 'origin/master' +6cc1bc7 !288 【dcmi】【芯片网络状态查询】goroutin泄露问题修改 Merge pull request !288 from Atlas_zxp/memoryleak-bugfix +0712fb7 !289 【修改说明】修复github.com/opencontainers/runc漏洞 Merge pull request !289 from lirui238/dts-runc-v1.1.5-prob +901d018 !286 【修改说明】软件故障直接触发pod打标签(AI平台场景) Merge pull request !286 from tiankaijin/label +d70ee5f fix +956af44 【修改说明】修复github.com/opencontainers/runc漏洞 +7e6eaac 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +71b842a 【修改说明】A3网络故障适配 +bb533c0 !276 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题 * 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题 +565c988 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +cbd0275 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +22356dd 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +3aee668 Merge branch 'master' into frequency +c857acd Merge remote-tracking branch 'origin/master' +ad50fe8 !265 【修改说明】cleancode Merge pull request !265 from tiankaijin/master +7fa1cdc !274 解决偶现hccl不完整的问题 Merge pull request !274 from wuweilin/master-1216 +9aa16b7 解决偶现hccl不完整的问题 +ee54000 !273 支持网络关联故障bug修复 Merge pull request !273 from fengjianqing/new +8bc99e6 fix +65f062d RC3支持网络关联故障bug修复 +4be5ae7 !270 【DP】【修改说明】cqe错误码改为L1 Merge pull request !270 from wsy/code +773d8ed 【修改说明】A3网络故障适配 +757df07 【修改说明 Modification】volcano不检测nodeD上报的心跳 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +6957c6f 【修改说明】A3网络故障适配 +087c785 【修改说明】A3网络故障适配 +cefa11d fix +1c25349 Merge remote-tracking branch 'origin/master' +f5c2aaf clean code +7a008cf 【修改说明 Modification】取消心跳上报,节点状态有更新才上报 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +18a3090 !261 【修改说明】解决部分指标刷屏日志 * 【修改说明】刷屏日志处理 +fcf3fd7 !259 【修改说明 Modification】switch和node故障支持进程级恢复补充修改 Merge pull request !259 from Atlas_zxp/process-bugfix +6864b01 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +1c101d4 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +4f85875 !252 【修改说明】兜底mindio和mindx开关不一致问题 Merge pull request !252 from tiankaijin/fixSwitch +a9dc9ba 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +669d371 fix +d3674db 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +57d7f98 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +4af716a 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +a8f57e4 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +23acd29 fix +4b44fa4 !253 【修改说明 Modification】switch和node故障支持进程级恢复 Merge pull request !253 from Atlas_zxp/process-bugfix +08eeda3 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +bf7dc1c 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +4702205 !222 【修改说明】volcano支持关联故障 Merge pull request !222 from fengjianqing/volcano +3e602a8 Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl into process-bugfix +05e1388 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +77993a9 !133 【修改说明】A3 hccs关联故障适配 * 【修改说明】A3网络故障适配 +3feeb94 clusterd支持网络关联故障 +ea5582e !251 dp支持hccl算子重执行 Merge pull request !251 from fengjianqing/dp +9f8e0c1 !216 【clusterd支持关联故障】 * clusterd支持网络关联故障 * clusterd支持关联故障 +3e31424 fix +64717af fix +378ec8a fix +ed68f1f dp支持hccl算子重执行 +6540065 Merge branch 'refs/heads/master' into frequency +8a9d1b9 Merge remote-tracking branch 'origin/master' +e7a8e82 【修改说明】device-plugin frequency +f57eb24 【修改说明】device-plugin frequency +7a6a388 !247 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态 Merge pull request !247 from Wangmin362/jobstatus-update +d3b421d !246 【修改说明】重调度兜底hotReset=1与进程级恢复不兼容的问题 Merge pull request !246 from tiankaijin/fixHotReset +e4f9d66 !224 【修改说明】更新修复结果到annotation中 Merge pull request !224 from tiankaijin/updateResult +1567a18 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态 +9cef76f fix +e10837c fix +e362c53 update result +a049bdb fix +4d99c42 【修改说明】device-plugin frequency +77e4e75 【修改说明】device-plugin frequency +ec678f0 【修改说明】device-plugin frequency +b809297 Merge branch 'refs/heads/master' into frequency +16d5023 Merge remote-tracking branch 'origin/master' +38e981b !244 ccae联调修改 Merge pull request !244 from wuweilin/jobr5 +0e55751 fix +1e2a5c4 fix +5b6d833 ccae联调修改 +1e501f7 fix +15c78d6 !231 【修改说明】移除原来的cmManager * 【修改说明】移除原来的cmManager +86de04b !242 【修改说明】report的updatechan长度扩展 Merge pull request !242 from lirui238/cherry-pick-1733921599 +d46b86e fix +3513739 【修改说明】report的updatechan长度扩展 (cherry picked commit from +8c63ea5 !238 【修改说明 Modification】增加异常错误日志 Merge pull request !238 from Wangmin362/opt2 +eff9323 !225 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 +3735edb !226 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix Merge pull request !226 from Atlas_zxp/operator-bugfix +44b7a53 【修改说明 Modification】增加异常错误日志 +8728269 【修改说明】支持关联故障 +876fbf2 !233 【修改说明】cleanCode修改 Merge pull request !233 from dongpeng30/clean_code +7c835a5 clean code +117f303 fix +1dae39c Merge branch 'refs/heads/master' into frequency +010293e Merge remote-tracking branch 'origin/master' +3ff39c8 【修改说明】cleancode修改 +7a76e78 Merge remote-tracking branch 'upstream/master' +29950ec 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +68b186f add fix result +14d0b5c !176 【修改说明 Modification】fault manager来决策是否做step-retry Merge pull request !176 from lirui238/faultmanager-juedge-stepretry-v2 +1e45dc1 【修改说明】volcano支持关联故障 +8695017 【修改说明】volcano支持关联故障 +d11ed73 !209 【修改说明 Modification】jobCache 调整返回值顺序,删除无用代码 * 【修改说明 Modification】调整返回值顺序,删除无用代码 +60894dc 【修改说明】抽取公共方法,解决检视意见 +325c966 !203 【ascend operator】因为elastic无法读取configmap的软连接挂载,以文件形式保存rank table version字段 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * save rank table version to file +272772e !202 【修改说明】volcano支持从clusterd写的标签获取故障任务 Merge pull request !202 from fengjianqing/volcano +c5e4654 Merge branch 'refs/heads/master' into frequency +29b3b34 Merge remote-tracking branch 'origin/master' +6b87e3d 【修改说明】device-plugin frequency +8db2b7e 【修改说明】fix validBusinessReport +3b3bb36 !204 【修改说明 lock bug修复。 Merge pull request !204 from lirui238/nil-bug +88ed452 !183 [wip] 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】pg的Uid应该从Pod annotations中获取而不是labels * 【修改说明 Modification】解决合并冲突 * Merge remote-tracking branch 'origin/master' into jobCacheExpection * 【修改说明 Modification】日志信息添加pod Name以及名称空间 * 【修改说明】当从Pod无法获取PodGroup信息时,从ApiServer获取PodGroup信息,以保证断点续训可以正常的注册 * 【修改说明】修改日志级别使用方法,从Errorf修改为Error * 【修改说明】修改获取PG的判断名称空间和名字的逻辑 * 【修改说明】添加注释,修改日志级别 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 +372ebb4 【修改说明】出volcano包 +f40dd6d 【修改说明】grpc同样修改判断逻辑 +1678ee7 【修改说明】fault manager判断step retry +611b092 Merge remote-tracking branch 'origin/master' +3c3dec0 !200 【修改说明】device-plugin SetSlowNodeNoticeEnv开关参数名修改 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge remote-tracking branch 'origin/master' * Merge remote-tracking branch 'origin/master' * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix +3b7a26a 【修改说明 nil bug修复。 +5c8a282 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix +e132a2e Merge remote-tracking branch 'origin/master' +84ad338 【修改说明】device-plugin frequency +7e2f08b 【修改说明】volcano支持从clusterd写的标签获取故障任务 +af8f27f !199 1520故障码级别修复 * 1520故障码级别修复 +5bdfc97 !153 docker-runtime、operator和dp组件依赖从npu-exporter切换到ascendcommon * ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common +a6e1819 Merge remote-tracking branch 'origin/master' +9affdb6 !155 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable Merge pull request !155 from lirui238/reduce-recover-config +05db5f4 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix +e604cab 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable +6b2919b !177 【修改说明 Modification】reporter订阅faultmanager * 【修改说明 Modification】reporter订阅faultmanager +2e0b604 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix +21dfd3f 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix +4ec0089 !171 【修改说明】修复volcano偶现不触发重调度问题 * 【修改说明】修复 +0787992 !180 【修改说明】热复位去掉checkcode检查 Merge pull request !180 from tiankaijin/checkcode +62c45fb !178 【修改说明】调度失败后,将状态机走faultRetry,由volcano接管 Merge pull request !178 from tiankaijin/faultRetry +a3980d4 remove check code +266a295 fix scheduling fail case +a90e86f !172 【修改说明 Modification】clusterd使用common包,并设置日志长度为2048。 Merge pull request !172 from lirui238/clusterd-use-common-pkg +9d9fdea !175 修复加锁bug Merge pull request !175 from tiankaijin/fixrlock +bcbf925 【修改说明 Modification】clsuterd使用common包,并设置日志长度为2048。 +3fd31b7 fix +2ada92d !170 job模块重构-自测修改 Merge pull request !170 from wuweilin/jobnew2 +8c3df2a job模块重构-自测修改 +43a2a83 !169 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复 * 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复 +d7e96ab !162 在多节点下可以正确找到linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into clusterd_log * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 +201b393 !154 修复获取热复位芯片数逻辑 +1d38ad9 !157 【ascend operator】解决rank table的并发修改冲突,将pod删除事件放到reconcile进程中处理 Merge pull request !157 from YangLei/master +318ef88 !164 【修改说明】修复组件reset.json 结构不一致导致的checkCode检查失败的问题 Merge pull request !164 from tiankaijin/master +1acf3bd !168 【修改说明】取消step重计算的故障刷新时间 Merge pull request !168 from tiankaijin/sleep +6e72775 !165 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。 Merge pull request !165 from lirui238/aic-aiv-fault-report +fa56db3 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。 +6085d2f fix +1978f3c re initial servers +97c1129 fix +eb631ce patch +6573385 !167 job重构第三部分 Merge pull request !167 from wuweilin/jobnew2 +7b16718 job模块重构-第三部分 +7f08130 !166 job重构第二部分 Merge pull request !166 from wuweilin/jobnew +ead3737 job模块重构-第二部分 +8c4a213 !152 job模块重构 Merge pull request !152 from wuweilin/jobnew +b622cdf job模块重构-第一部分 +ed04c6f fix +81278fd fix reset json struct +53ec45b Merge remote-tracking branch 'upstream/master' +dfbf61b !156 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全 Merge pull request !156 from lirui238/device-plugin-faulttime-bug +49a5145 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全 +9ac2066 Merge branch 'master' of gitee.com:tiankaijin/mindxdl +c2517b3 fix +60762bc handle events in one proc +59f8451 ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common +93da42e !151 【修改说明 Modification】uce test * 【修改说明 Modification】增加uce test +adce177 !147 【修改说明 Modification】重构faultmanager中configmap的使用 * 【修改说明 Modification】重构faultmanager中configmap的使用,使用泛型 * 【修改说明 Modification】重构faultmanager中configmap的使用 +ae2f637 !148 【修改说明】修复dump和Exit策略监听pg running 的时序问题 * fix * fix * fix +c7049e3 fix +fcad3e2 !141 【修改说明 Modification】faultmanager ut Merge pull request !141 from lirui238/faultmanager-ut +8dca9b1 !139 【ascend operator】operator重启时,重置version字段 * "patch" * "patch" * Merge branch 'master' of gitee.com:ascend/mindxdl into hccl * "add comment" * "patch" * "patch" * "patch" * "add commment for exposed func" * "reset cm version when operator reboot" +92677e7 Merge remote-tracking branch 'release/master' into faultmanager-ut +2f46156 fix +fe1421f fix +3a38b34 !144 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志 Merge pull request !144 from lirui238/debug-faulttime +daa3a46 !145 【修改说明 Modification】整机调度过程优化芯片进程查询关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 +8d76d46 !135 【ascend operator】通过状态机控制ranktable保存,降低资源读写次数 Merge pull request !135 from YangLei/master +9a00f54 !146 【修改说明】cleanCode修改 * 【修改说明】cleanCode修改 +40638f6 "fix review" +bac4805 【修改说明 Modification】检视意见 +c7795f6 Merge remote-tracking branch 'release/master' into faultmanager-ut +22592f8 【修改说明 Modification】测试一张卡上不同类型的故障确实会产品两条DeviceFault数据。 +c699014 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志 +719cf7f !138 优雅容错部分微重构 * 【修改说明】 * 【修改说明】 * 【修改说明】微重构 * 【修改说明】微重构 +ef0a55b 【修改说明 Modification】删除超出PR上限的代码 +36a3222 【修改说明 Modification】合并device上的故障信息的时候,应该要根据CardUnhealthy和CardNetworkUnhealthy分类。 +0ac68bf !143 【修改说明 Modification】dp上报的fault time 有时不存在,需要打印日志 * 【修改说明 Modification】debug fault time +9deba59 !142 【修改说明】step重计算失败后499返回码补杀pod * fix * fix * Merge remote-tracking branch 'upstream/master' * fix * fix +7570c7a "patch" +8546de5 "patch" +f868678 "patch" +92d05f4 "ranktable adds status for cm and file" +d1666aa !140 【修改说明 Modification】整机全调度场景过程优化 Merge pull request !140 from wangjun/master +8edc184 【修改说明 Modification】faultmanager ut +4d7ad8e "ranktable state machine, optimize cyclomatic complexity" +8ad5ec8 【修改说明 Modification】整机全调度场景过程优化 +ce126cd !120 更新npu和1520故障码 Merge pull request !120 from zhoupan39/master +f3cfc86 "ranktable state machine, optimize cyclomatic complexity" +e86d8ba !134 【修改说明】索引为0时可以删除故障卡 Merge pull request !134 from getee0506/cqe +b400556 Merge remote-tracking branch 'origin/master' +677df8b "ranktable state machine, " +9800f12 !136 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。 Merge pull request !136 from lirui238/develop +38a6bf3 Merge branch 'master' of gitee.com:ascend/mindxdl into master +bd963ff 更新npu和1520故障码 +b1acb28 "ranktable state machine, lock ranktable write process" +94362ca 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。 +370cede !132 【修改说明】进程级恢复支持预刷新故障 * fix * fix +f5a39ea "ranktable state machine, lock ranktable write process" +9f696fa 【修改说明】cqe error后,隔离linkdown的卡 +8a21cc5 !117 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge branch 'gpx' of https://gitee.com/guopengxin/mindxdl into gpx * Merge https://gitee.com/guopengxin/mindxdl into gpx * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 +d2be1eb "ranktable state machine" +56cc382 !124 【修改说明】cleancode修改 * 【修改说明】npu-exporter适配高版本GCC编译 +507cf29 !121 noded组件依赖从npu-exporter切换到ascendcommon Merge pull request !121 from zhoupan39/dependency_change +d554b6f !123 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 Merge pull request !123 from lirui238/develop +37ca6b8 !126 【修改说明 Modification】HBM UCE场景支持 bug修复 * 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 +a65b81d !113 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 +ce74fd9 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 +c87949c noded组件依赖从npu-exporter切换到ascendcommon +2c93012 【修改说明】clean_code修改-修改检视意见 +a332b5b 【修改说明】clean_code修改-修改检视意见 +e451451 【修改说明】clean_code修改-锁释放避免跨函数调用 +cb68971 【修改说明】clean_code修改-恢复 +1e772c0 support pod that has multiple containers and only one of containers has NPU +bab39e3 fix getVirTemplate to pass golangcli-lint +977e472 【修改说明】clean_code修改-命名风格一致 +4c1bf6e 【修改说明】clean_code修改-导入包避免取别名 +ee37d0f Merge branch 'master' of gitee.com:dongpeng30/mindxdl into clean_code +cfe2e49 Merge remote-tracking branch 'upstream/master' +8487bc9 !116 【修改说明】cleanCode修改 * 【修改说明】clean_code修改 +e5763b0 "ranktable state machine" +623bdff Merge remote-tracking branch 'origin/clean_code' into clean_code +e611f6e 【修改说明】clean_code修改-关闭资源、err处理 +616e048 【修改说明】clean_code修改-避免使用全局变量 +abd4fb5 【修改说明】clean_code修改-变量被使用时才声明并初始化 +d3ad121 【修改说明】clean_code修改-敏感字样修改 +fdeec0b 【修改说明】clean_code修改 +fd94543 Merge remote-tracking branch 'upstream/master' +4a2e2ac !119 【修改说明 Modification】HBM UCE场景支持 bug修复 * 499 use exit strategy * clean code * test case * name * test case * report fault level for each event * resign processor of jobFaultRank +6deb4e6 【修改说明】clean_code修改-关闭资源、err处理 +7aa16c2 【修改说明】clean_code修改-避免使用全局变量 +5b0d880 【修改说明】clean_code修改-变量被使用时才声明并初始化 +1910a8c 【修改说明】clean_code修改-敏感字样修改 +2b8d1d8 !110 【ascend operator】自动创建ranktable文件路径,仅支持hostpath Merge pull request !110 from YangLei/master +770af95 "patch" +186b16d 【修改说明】clean_code修改 +40cde25 "patch" +b0dcc6f "patch" +2ba5e7f "patch" +d89baf6 "check directory" +4416dd2 "patch" +d60c966 解决冲突 +7024c53 !107 【修改说明】减少clusterd状态机锁范围 * Merge branch 'master' of gitee.com:ascend/mindxdl into lock +50e178c !108 【修改说明 Modification】HBM UCE场景支持 Merge pull request !108 from lirui238/device-plugin-faulttimeV2 +aa40c41 clean code +1ba9644 fault time +ac47806 "patch" +0aac697 clean code +297f90e clean code +61a46ae 【修改说明】clean_code修改 +397c6ef "patch" +3ed3ee4 "patch" +c119b83 "patch" +3864aa4 【修改说明】clean_code修改 +7d2456f 【修改说明】clean_code修改-格式化代码恢复 +d1dc5e4 【修改说明】clean_code修改-格式化代码恢复 +aa7090b 【修改说明】clean_code修改-格式化代码恢复 +6931594 "patch" +790ad3d 【修改说明】clean_code修改-文件名不能包含大写 +6f29db3 "patch" +c5cf91b "patch" +11e21f9 Merge commit 'e2b662ec' +e2b662e 【修改说明】clean_code修改-解决冲突 +f39b4be 【修改说明】clean_code修改-单行不超过120个字符;导出标识符要有注释 +d018c31 【修改说明】clean_code修改-恢复volcano中误删的导包 +abc08a1 Merge branch 'master' of https://gitee.com/yang-lei_1_0/mindxdl +580bd9b "patch" +ebed08d Merge branch 'master' of gitee.com:ascend/mindxdl into master +bc8aaab 【修改说明】clean_code修改-所有导出的标识符要有注释、文件头包含版权信息、要有包注释、下标越界等 +764e436 "fix check op" +c45492e clean code +c59a49d !76 npu-exporter公共代码提取 Merge pull request !76 from zhoupan39/master +6e86fe4 【修改说明】clean_code修改-G.CMT.01 文件头注释必须包含版权说明、G.CMT.02 每个包都应该有包注释 +6294352 fault time +5db26dd 【修改说明】clean_code修改-所有go文件格式化 +0da9bb3 build_all.sh脚本执行过程跳过编译ascend-common组件 +cfc9487 fault time +c44a17d marshal +0e677df !114 【修改说明】dp处于热复位时忽略1520故障 Merge pull request !114 from fengjianqing/sw +126be37 !111 修复pod缓存更新错误的问题 * 【修改说明】pod缓存更新错误问题修复 +46e8162 "patch" +985d759 【修改说明】dp处于热复位时忽略1520故障 +8c17885 !112 【修改说明 Modification】不处理不使用NPU卡的任务 Merge pull request !112 from Atlas_zxp/master +7086cf4 "patch" +f9c32de log +0eace61 【修改说明】clean_code修改 +d2f39b5 修改readme描述 +34a9af6 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +9e205f8 "patch" +7faffdc "patch" +ed793e7 !109 npu-exporter、dp适配高版本gcc编译 * 【修改说明】device-plugin适配高版本GCC编译 * 【修改说明】npu-exporter适配高版本GCC编译 +7e662e6 "patch" +8a566b2 修改readme描述 +58019b2 add 310p +1918bd0 npu-exporter公共代码提取 +20d43cc 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +4cfa7d1 "patch" +c611a9e "patch" +3ecdeb0 Merge remote-tracking branch 'release/master' into device-plugin-faulttimeV2 +15e57ea "auto mkdir for ranktable file" +aba84f6 【修改说明】device-plugin适配高版本GCC编译 +8e48397 【修改说明】npu-exporter适配高版本GCC编译 +f2d6f75 log +788f844 provide getJobFaultRankInfosFilterLevel for state-machine +2abc957 device-plugin report all fault time +c2839d0 Merge branch 'master' of https://gitee.com/ascend/mindxdl +32fa373 remove fault time report +ade4aee !96 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 +cae72e5 !88 【修改说明 Modification】clusterd&master pod svc ip获取优化 Merge pull request !88 from 李鸣沼/log-fix +c1943c4 device-plugin report all fault time +a5016f5 !106 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !106 from lirui238/bug-fix +832fb08 bug fix +deb72e0 !77 【修改说明 Modification】deployment任务适配superPod Merge pull request !77 from Atlas_zxp/master +c424d5c 【修改说明】clusterd&master pod svc ip获取优化 +3f3f057 !103 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !103 from lirui238/uce-bug +ec1d287 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +12dcd8c log readable +c35b2ba bug fix +955aabb !101 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !101 from lirui238/uce-bug +17d12d7 split commit pr3 +d7da38f !99 【修改说明】AI平台相关代码已经grpc service代码合入 * AI平台相关代码已经grpc service代码合入 +c5ce5a9 !95 【修改说明 Modification】HBM UCE场景支持 PR3 Merge pull request !95 from lirui238/uce +45ece41 split commit pr3 +c7fb148 split commit pr3 +24c6e01 Merge branch 'master' into uce-pr1 +2542038 split commit pr3 +eae098b !94 【修改说明】90pr拆分部分代码合入 * fix +1b6408a !90 【修改说明】进程级恢复主逻辑controller代码 * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * change max line length * fix * add main process recover logic +bb9e397 !92 【修改说明 Modification】HBM UCE场景支持 Pr2 * split commit pr2 * Merge branch 'master' into uce-pr1 * split commit pr2 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete +af5d7a5 split commit pr2 +8866943 Merge branch 'master' into uce-pr1 +7946f8f split commit pr2 +b9a9049 !83 【修改说明 Modification】HBM UCE支撑 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete +1a0cc58 split commit pr1 +e1a0ca3 Merge remote-tracking branch 'origin/master' into uce +ef6c0de all test commit +03bab58 Restore Volcano Changes +5f5e64c debug: channel buffer and processLimit +35baf95 Merge branch 'master' of https://gitee.com/ascend/mindxdl +16c3dd4 !87 【修改说明】进程级恢复重构需求合入基础数据类型以及common utils相关代码 * fix * fix * fix * submit base code +89b08b4 "patch" +ec48820 Merge remote-tracking branch 'origin/master' into log-fix +fcda9ae "add env for rescheduling" +879ad59 【修改说明】clusterd&master pod svc ip获取优化 +3380de4 Merge branch 'master' of https://gitee.com/ascend/mindxdl +00ac169 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +e3bf498 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +1a0e466 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +18ecab2 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +0871be3 judge job is uce +237ae8b refactor and pass test +cea9810 !80 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 +9755444 !79 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改检视意见 * 【修改说明】修改检视意见 * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】hwlog增加重复打印限制 * 【修改说明】dt * 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次 +d20a7a3 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +42c4ff9 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +61c7fde 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +99657c3 refactor +ada6c17 refactor +98c0583 delete test +ef2f60d Merge branch 'master' into uce +9c5d910 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +6328dce 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +4dc306f 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +c6cbc1e 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +d86fbe1 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +6959b2f micro refactor +450cde8 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +c609418 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +5cc9169 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +b6179fc 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +3ecc3c2 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +86a815c !74 【修改说明 Modification】减少clusterD中锁的粒度 * 降低所有锁的粒度,防止锁嵌套 +1d1ce9a Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl +932a8db log + job fault rank processor test +0f58d1f split device faults +90f0fc3 package refactor +94c4c34 informer+jobFaultRankList +ac2d319 !72 【ascend operator】支持configmap和共享文件同时存在 Merge pull request !72 from YangLei/cm_file +6bd5bef "patch" +cf4a1bb "patch" +8a2fd50 !73 【ascend operator】configmap增加version字段,用于热复位 * "timestamp as version" * "add version to configmap" +6333778 "patch" +c3a5b10 !69 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次 +64ac46d "patch" +ffbdb51 "timestamp as version" +b20c6d6 "patch" +f90c2d0 "add version to configmap" +5ce24fe "configmap and file both exist" +f4c581e !71 【Ascend operator】operator支持mindspore使用ranktable Merge pull request !71 from YangLei/master +6c166a9 Merge branch 'master' into uce +176d153 corrent time error +218aae0 "not use npu log" +9b03758 "mindspore ranktable 02" +e6f3a58 Merge branch 'master' of https://gitee.com/ascend/mindxdl +a471295 !55 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题 Merge pull request !55 from 李鸣沼/log-fix +64bbce7 !59 noded支持NPU MCE/AER故障上报 * 【修改说明】noded支持NPU MCE/AER故障上报 +c6f8fd7 uce accompany fault (aic aiv) processor, test pass +9176cdc 【修改说明】修复关键日志被截断问题 +2b525b6 mindio report callback only report jobid rankid; uce fault code=80E01801 +79d7636 !60 operator支持vcjob重调度 * "vcjob rescheduling" +a37967f "patch" +f074bdb "patch" +6c55524 "patch" +927db7e "rename import" +ff11b80 "patch" +1ca72fc "new file" +5501637 "patch" +b52345e "patch" +b5861d0 device plugin report fault time +32615f2 "patch" +7434c74 "patch" +19d8d76 "delete hccl.json" +9985d56 "patch" +121e188 "patch" +b226dba "check status" +3ef86fd second complete, test pass +e0bea3e "patch" +d8cdc06 "patch" +df3315c "patch" +a30d2c8 "vcjob rescheduling" +5daeaf2 !57 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod * 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod +31064f3 !53 hccl controller收编 * rkt for tensorFlow and MIndSpore +aea1992 !41 operator支持mindspore使用ranktable Merge pull request !41 from YangLei/master +17486e8 Merge branch 'master' of gitee.com:ascend/mindxdl into hostIp +0d7b6b0 Merge branch 'master' of gitee.com:ascend/mindxdl into hccl +69e9751 !32 展示最近的重调度记录 * 获取最近10条重调度记录 +faf93a9 !44 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 Merge pull request !44 from wangjun/master +b6fdada 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +e051c2b 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +18289e0 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +c5c66ce "fix codeCheck" +249498d "acjob save configmap" +798fac7 "patch" +b6ba244 "configmap key" +523deb9 "patch" +13d3e41 "const for get pod" +18ef494 !49 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片 * 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片 +676ff42 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题 +278dc87 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +4c73f52 !54 修改raedme及构建脚本 Merge pull request !54 from luxiang6/comm_repo +244c30f "decimal const" +f6f3c05 "add consts" +28d4024 "patch" +cacb9dc "patch" +5e0c92e "patch" +d618f16 "patch" +649dd57 "patch" +b38488e "patch" +a5f388c "write rank index patch" +28630bf "get rankIndex for deploy" +0933676 "decorate deployment" +5b31631 "ckeck replicas len" +e2c9aa4 "add clusterRole for deploy" +f7a8159 "watch deployment" +e807149 "patch" +d2188be "add interface ToString() " +3a04cc2 "ranktablepipeline" +b71d098 !52 【修改说明】修复重调度,误删mindspore的scheduler的pod * 【修改说明】修复重调度,误删mindspore的scheduler的pod +cdc4dd8 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +bdab850 readme&构建脚本修改 +2e2c094 "patch" +6ed0927 "patch" +303b837 first complete +7a3c89c "patch for vcjob config map" +3a3bb50 "add scheme fof vcjob and deploy" +890da10 "vcjob write configmap" +bf28f87 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +676e215 "bad import " +737cabd "backoff to master" +340d9d8 "merge hccl for vcjob with hccl.json mount" +034c862 "test branch" +92a972e !51 【修改说明】clusterd 适配x1平台volcano1.2 pgName不能由jobName+jobId拼凑的问题 * fix * fix * fix * fix * separate jobid pgid jobname pgname +49d57c4 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +bf1c634 "patch" +ad7931d !50 【修改说明】dp修复动态切分不上报卡故障 Merge pull request !50 from fengjianqing/master +0e215b8 【修改说明】dp修复动态切分不上报卡故障 +7075415 "not add pod without rkt" +46ec172 "rename const" +66f9d0c "func podUseNpu" +76f2c51 "operator for mindspore ranktable" +b6a5215 Merge branch 'master' of https://gitee.com/ascend/mindxdl +f9ea22a 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +20670e2 !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix * fix * fix +f1ed8f9 !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix +d54616d !48 【修改说明】npu-exporter 增加LargelimitListener功能 * fix code * fix * add large listener +3d7ed6d 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +54dca92 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +fb258d1 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 +34c516e !39 【修改说明】clusterd 修复AI平台对接相关逻辑(stopComplete后再写confirmfault, 更新恢复结果annotation以实际选择的最后策略为准) * fix platform logic +37f6105 !40 【修改说明】clusterd限制支持节点数和作业个数,从而限制cmManager大小和bsWorker大小 Merge pull request !40 from tiankaijin/dts862 +e5e4282 !43 加固clusterd容器安全配置 Merge pull request !43 from weihaoran/clusterd_yaml +5fb9645 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 +dd70325 !45 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 * 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 +b68b3a6 !23 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户 +80c3784 !42 【修改说明】调整clusterd pod增删改时日志记录级别 * 【修改说明】刷屏日志调整 +11ac7c5 !33 dp最小级修复 * 最小集检测修复 +29f386a 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +ffd017b fix +d36fb00 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 +1ec752b 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 +c2f3419 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 +90451fe Revert "【修改说明】调整clsterd pod增删改时日志记录级别" +7037777 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 +ea04af4 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 +816d146 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 +cf377b1 fix +d05bc65 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 +4197792 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +e54e02d fix +ceb4668 【修改说明】加固clusterd容器安全配置 +211d0f7 fix +dd14c42 【修改说明】调整clsterd pod增删改时日志记录级别 +2b44d18 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 +60be355 !37 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 Merge pull request !37 from lirui238/seccomp-config +11f92f3 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 【修改人 Modifier】lirui238 【评审人 Reviewer】luxiang6 +1ef69b6 fix +d2d72a2 limit bsworker and cmManager length +e868818 rkt for tensorFlow and MIndSpore +6726f95 !36 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 Merge pull request !36 from Atlas_zxp/delete-x11 +68713dc !38 【修改说明】clusterd grpc支持限制qps Merge pull request !38 from tiankaijin/qps_limit +903da2f 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +c73824f fix +d22ff75 fix +66316bc fix +32efd82 fix +5c05ee0 !34 【修改说明】cluster grpc支持资源清理和注册校验 Merge pull request !34 from tiankaijin/clean_grpc_resource +7be3e1e 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +5023a52 fix +a45fb68 fix +7e8d55b !35 【修改说明】进程级回复增加等待调度时间 Merge pull request !35 from tiankaijin/wait_pg_running +b341094 fix +7e6e8ba !31 优化clusterd权限 Merge pull request !31 from weihaoran/clusterd_user +347dbca fix +633ebd4 fix +a7e99f6 !18 1520故障码映射同步修改 * 同步rc3修改 +e7d09de 【修改说明】优化clusterd权限 +b3fa1aa cleancode魔鬼数字修改 +fac229f !30 【修改说明】修复clusterd 全0监听问题 * fix zero listen +ca16ec6 cleancode +d9ca767 cleancode +5ebef89 !29 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token Merge pull request !29 from Atlas_zxp/delete-token +b2de16f 同步rc3修改 +1537f58 修改cleancode +21aeb40 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +2aa7824 !26 开启N秒快恢功能,单独发生80CB8009故障,故障不上报 Merge pull request !26 from zhoupan39/master +c4c7d6c !25 【修改说明】pytorch 优雅退出参数和 ms 保持一致 Merge pull request !25 from tiankaijin/tkj_volcano +b4ba48c !28 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题 * 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题 +513a62a !27 修改clusterd默认日志文件 Merge pull request !27 from weihaoran/clusterd_log +bd1d800 【修改说明】修改clusterd默认日志文件 +b5e31de 【修改说明】修改clusterd默认日志文件 +ed9bdfe !19 【修改说明 Modification】更新统一编译说明及build脚本 * update build +5fbec6e 保持pt和ms框架优雅退出参数名一致 +aaf6bc5 开启N秒快恢功能,单独发生8009故障,故障不上报 +d949dab !22 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED +89d2331 !21 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 +cc8fc2e !17 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 Merge pull request !17 from Atlas_zxp/master +2bb58fb !16 指标对齐 * 【修改说明】telegraf增加currentFreq、voltage采集、进程信息采集;修改promethus中errorCode上报方式… +31aeda9 !20 /var/queue_schedule添加白名单 Merge pull request !20 from YangLei/master +70b72d2 add /var/queue_schedule to whitelist +b3be6aa !14 修改clusterd默认用户 * 【修改说明】修改clusterd默认用户 +c44e28f !15 修复clusterd空指针解引用问题 Merge pull request !15 from weihaoran/clusterd_panic +b99ad79 新仓同步修改 +cb3cc9d !10 增加挂载路径适配HDK升级24.1.RC2 Merge pull request !10 from YangLei/master +12315f7 !11 【修改说明 Modification】volcano代码同步 * 【修改说明 Modification】volcano代码同步 +eb05dca !9 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时 * 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时 +cac43db !12 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 +88db0ce 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 +7cd0929 !13 同步分支代码 Merge pull request !13 from luxiang6/sync_code +97ea507 【修改说明】修复空指针解引用问题 +b9b8e81 同步代码 +efd9df8 add mount path /var/queue_schedule +67c464e !8 【修改说明 Modification】clusterd更新readme及build Merge pull request !8 from chentian/master +891aca4 Merge branch 'master' of gitee.com:chentian007/mindxdl +f7fd266 update clusterd readme +c59600e update clusterd readme +e21cb07 update clusterd readme +64763b3 update clusterd build +2147533 !5 【修改说明 Modification】clusterd代码合并及统一构建出包build脚本 * add build_all.sh * 新增clusterd组件 +81e7ef3 fix codecheck +53dc253 update +ecbc82d add build +711c366 fix clusterd DT bug +a2e3d9c fix cleancode bug +1d19ddc fix cleancode bug +cfe591b add build +9b10496 add build +367e094 add build +7f6ee55 add build +90096d3 add build_all.sh +dde9e35 新增clusterd组件 +9445198 新增clusterd组件 +a2ee6e7 新增clusterd组件 +ed4978e 新增clusterd组件 +e57db23 新增clusterd组件 +47f496c 新增clusterd组件 +aa01a34 新增clusterd组件 +f88bd27 !4 代码仓归一+cleancode整改 Merge pull request !4 from luxiang6/cleancode +582a3c6 Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode +8aead81 update OWNERS. +5016570 cleancode修改 +7dddf8a cleancode修改 +3617bf5 cleancode修改 +e95fdbf cleancode修改 +2ca5b7c Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode +67918d2 update OWNERS. +3997739 cleancode修改 +cf27c77 cleancode修改 +149b8f9 Merge branch 'master' of gitee.com:ascend/mindxdl into master +a12accf add OWNERS. +4546883 代码仓归一 +a40d318 代码仓归一 +d894bbc 代码仓归一 +57f1d8e 代码仓归一 +3ed63d6 代码仓归一 +7dcd4fa 代码仓归一 +53101e6 代码仓归一 +4405b33 (tag: v6.0.0-RC2, tag: v6.0.0-RC1, tag: v5.0.1, tag: v5.0.0) Initial commit -- Gitee From bc24524335ffda90ad30cc0c3259f816fba51b98 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Wed, 9 Apr 2025 09:45:25 +0800 Subject: [PATCH 02/14] =?UTF-8?q?=E8=BF=AD=E4=BB=A3=E4=B8=80=E9=9C=80?= =?UTF-8?q?=E6=B1=82?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../pkg/server/manager.go | 30 +++++++------------ .../clusterd/pkg/common/constant/constants.go | 2 +- component/noded/main.go | 2 +- .../reporter/cmreporter/configmap_reporter.go | 3 +- .../noded/pkg/reporter/reporter_manager.go | 2 +- 5 files changed, 14 insertions(+), 25 deletions(-) diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 90d84403b..65970d138 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -28,7 +28,7 @@ import ( "github.com/containerd/containerd" "github.com/fsnotify/fsnotify" - "k8s.io/api/core/v1" + v1 "k8s.io/api/core/v1" "k8s.io/apimachinery/pkg/util/wait" "k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1" @@ -401,17 +401,17 @@ func (hdm *HwDevManager) separateNPUIDFromDeviceInfoIntoCache() { func (hdm *HwDevManager) handleDeviceInfoUpdate(initTime *time.Time) { common.LockAllDeviceInfo() defer common.UnlockAllDeviceInfo() - + if err := hdm.updateAllInfo(); err != nil { hwlog.RunLog.Error(err) return } - + // complete the fault codes that cannot be reported by the event subscribe interface hdm.mendSubscribeFaultEvents() hdm.updateDeviceUsedInfo(hdm.groupDevice) hdm.notifyToK8s(initTime) - + // if node annotation has reset fail devices but all devices are healthy, clear node annotation hdm.checkNodeResetInfo() hdm.useVolcanoNotify() @@ -437,27 +437,14 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { if common.ParamOption.CheckCachedPods { go hdm.manager.GetKubeClient().PodInformerInspector(ctx) } - + initTime := time.Now() ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) defer ticker.Stop() - + // 使用全局故障触发通道 faultTrigger := common.GetFaultTriggerChan() - - // 启动故障监听goroutine - go func() { - for { - select { - case <-ctx.Done(): - return - case <-faultTrigger: - hwlog.RunLog.Info("Received fault trigger, processing device info update") - hdm.handleDeviceInfoUpdate(&initTime) - } - } - }() - + for { select { case _, ok := <-ctx.Done(): @@ -466,6 +453,9 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { } hwlog.RunLog.Info("listen device stop") return + case <-faultTrigger: + hwlog.RunLog.Info("Received fault trigger, processing device info update") + hdm.handleDeviceInfoUpdate(&initTime) case <-ticker.C: hwlog.RunLog.Debug("Periodic device info update") hdm.handleDeviceInfoUpdate(&initTime) diff --git a/component/clusterd/pkg/common/constant/constants.go b/component/clusterd/pkg/common/constant/constants.go index 87b49693f..971421367 100644 --- a/component/clusterd/pkg/common/constant/constants.go +++ b/component/clusterd/pkg/common/constant/constants.go @@ -80,7 +80,7 @@ const ( JobReportRecoverTimeout = 10 * 1000 JobReportInfoExpiredTimeout = 10 * 1000 JobReportCompleteTimeout = 30 * 1000 - FaultCenterProcessPeriod = 3 * 1000 + FaultCenterProcessPeriod = 1 * 1000 MaxFaultCenterSubscriber = 10 UnknownFaultTime = -1 ) diff --git a/component/noded/main.go b/component/noded/main.go index 9a635f8f3..73fcb8de7 100644 --- a/component/noded/main.go +++ b/component/noded/main.go @@ -35,7 +35,7 @@ import ( const ( defaultLogFile = "/var/log/mindx-dl/noded/noded.log" // defaultHeatBeatInterval is the default report interval - defaultReportInterval = 5 + defaultReportInterval = 1 // defaultMonitorPeriod is the default plugin monitor period defaultMonitorPeriod = 60 // maxReportInterval is the max report interval diff --git a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go index 0daa64423..0bd4b4c08 100644 --- a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go +++ b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go @@ -48,8 +48,7 @@ func NewConfigMapReporter(client *kubeclient.ClientK8s) *ConfigMapReporter { // Report send fault device info by config map func (c *ConfigMapReporter) Report(faultDevInfo *common.FaultDevInfo) { - if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) && - time.Since(c.reportTime) < defaultReportInterval { + if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) { hwlog.RunLog.Debugf("node fault device info is not changed and report time is not reached, no need to report") return } diff --git a/component/noded/pkg/reporter/reporter_manager.go b/component/noded/pkg/reporter/reporter_manager.go index f1de7892c..d088314d3 100644 --- a/component/noded/pkg/reporter/reporter_manager.go +++ b/component/noded/pkg/reporter/reporter_manager.go @@ -62,7 +62,7 @@ func (r *ReportManager) Init() error { func (r *ReportManager) Execute(faultDevInfo *common.FaultDevInfo) { r.faultManager.SetFaultDevInfo(faultDevInfo) for _, reporter := range r.reporters { - go reporter.Report(faultDevInfo) + reporter.Report(faultDevInfo) } } -- Gitee From 237b2dcef333d6f7d6ef3a7c765a6806be8631f0 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Wed, 9 Apr 2025 09:57:51 +0800 Subject: [PATCH 03/14] delete verbose --- .idea/mind-cluster-latest.iml | 4 - .idea/vcs.xml | 6 - .idea/workspace.xml | 124 ---- q | 1069 --------------------------------- 4 files changed, 1203 deletions(-) delete mode 100644 .idea/mind-cluster-latest.iml delete mode 100644 .idea/vcs.xml delete mode 100644 .idea/workspace.xml delete mode 100644 q diff --git a/.idea/mind-cluster-latest.iml b/.idea/mind-cluster-latest.iml deleted file mode 100644 index 7ee078df7..000000000 --- a/.idea/mind-cluster-latest.iml +++ /dev/null @@ -1,4 +0,0 @@ - - - - \ No newline at end of file diff --git a/.idea/vcs.xml b/.idea/vcs.xml deleted file mode 100644 index 35eb1ddfb..000000000 --- a/.idea/vcs.xml +++ /dev/null @@ -1,6 +0,0 @@ - - - - - - \ No newline at end of file diff --git a/.idea/workspace.xml b/.idea/workspace.xml deleted file mode 100644 index 6abc2affa..000000000 --- a/.idea/workspace.xml +++ /dev/null @@ -1,124 +0,0 @@ - - - - - - - - - - - - - - - - { - "associatedIndex": 1 -} - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - true - - \ No newline at end of file diff --git a/q b/q deleted file mode 100644 index 5724fd421..000000000 --- a/q +++ /dev/null @@ -1,1069 +0,0 @@ -a7a1768 (HEAD -> bugfix, origin/bugfix) 优化日志刷屏;优化写k8s次数 -6448c80 (origin/master, master) runtime dt 3 -a7fa270 runtime dt2 -d72a9df (runtimedt) 【docker runtime】DT -0a0ccb3 (upstream/master) !613 【volcano】【修改说明】volcano重构--增加vnpu处理模块 * 【volcano】【修改说明】volcano重构--调度流程调用修改 -dbde074 !564 【volcano】【修改说明】volcano重构--volcano调度整体调用流程变更 * 【volcano】【修改说明】volcano重构--调度流程调用修改 -dc97cf1 !602 【ascend-device-plugin】【修改说明】刷新故障码 * 【ascend-device-plugin】【修改说明】刷新故障码 -579f3d4 !518 【ascend-device-plugin】【修改说明】add DP DT Merge pull request !518 from zhoupan39/add_dp_dt1 -260fbbc !610 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复 Merge pull request !610 from wangjun/dp_bugfix -48c4d91 !615 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码 -db6f745 !609 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码 -0fd4a64 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复 -349a59a 【ascend-device-plugin】【修改说明】修改魔鬼数 -6c5e79b !605 bugfix: 扫描后未去掉等待三方标记 * bugfix: 扫描后未去掉等待三方标记 -8b4de93 !611 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起 * 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起 -2a2595b 【ascend-device-plugin】【修改说明】add DP DT -f2112ad !601 【nodeD】【pingmesh】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 Merge pull request !601 from Atlas_zxp/master -928fd4c !598 【clusterd】【修改说明】公共故障配置文件加载日志优化 * 【clusterd】【修改说明】公共故障配置文件加载日志优化 -93e252a !597 【修改说明】【ClusterD】补充util package dt用例 && 删除util package未使用函数 * 【ClusterD】补充util package dt用例 && 删除util package未使用函数 -2afba34 !599 确保执行复位才标记busy,防止走不到复位 * 确保执行复位才标记busy,防止走不到复位 -a9303fa 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -d57bf98 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -c5fdd1d !593 bugfix: 节点信息每次复位被清除 * bugfix: return when get phyID error * bugfix: 重复检查canResetDevice * fix cleancode * fix DT * fix review * 防止掉卡场景多次复位 * fix dt * 修复,获取设备状态异常 * fix DT * 防止多次触发该更新标签;设备信息去重 * 仅为A3设备添加关联ID * bugfix: 节点信息每次复位被清除 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修复DT * 【ascend device plugin】修改函数名 * 【ascend device plugin】A3复位后的处理逻辑和之前保持一致 * 【ascend device plugin】A3按最小粒度检查是否恢复 -fa886f5 !594 【clusterd】【修改说明】添加公共故障配置文件校验及故障数量上限 * 【clusterd】【修改说明】公共故障配置文件校验及故障上限添加 -aed3cab !585 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 Merge pull request !585 from wangjun/dp_bugfix -46e76ab !591 【修改说明 Modification】如果没有收集到数据,认为卡状态未知,handler初始化失败时不加入结果处理队列 Merge pull request !591 from Atlas_zxp/master -da0556f !575 微重构-调整方法位置 * 微重构-调整方法位置 * Merge remote-tracking branch 'origin/volcano' into volcano * 微重构-调整方法位置 * 微重构-调整方法位置 * DT测试 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * DT测试 -1ab919a !595 【修改说明】【ClusterD】pingmesh 日志优化 * fix log -d1d27fa !590 [npu-exporter]logger简化调用方式 * [npu-exporter]logger优化 -851e9b9 !589 [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言 * [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言 -3e12a68 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -f1cf749 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -cd5dc47 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -0dabcea 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -cb8d719 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -6682dde 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 -b3b1222 【修改说明 Modification】DT 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -a480908 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 -4d6b01f (tag: v7.0.RC1.B050) !583 taskd monitor第三部分 * profiling taskd业务代码 -434f0f3 !582 profiling taskd monitor第二部分 * profiling taskd业务代码 -9a044ad !546 profiling taskd业务代码 * profiling taskd业务代码 -d884a37 !548 profiling dp-clusterd相关功能 * profiling dp-clusterd相关功能 -82edf4a !580 【nodeD】【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 * 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 -5d8b796 !579 【ascend device plugin】带外复位逻辑完善 * 【ascend device plugin】A3按最小粒度检查是否恢复 -f8899d6 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -f636402 !560 【修改说明】【ClusterD】超节点设备信息发布逻辑 * fix * fix comment * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * fix comment * fix dt * fix * fix * clean code * add node event func * init pingmesh application -9b63373 !573 【修改说明】【clusterD】优化任务信息处理逻辑,CM字段 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 -0e7cc75 !576 【clusterd】【修改说明】日志及字段优化 * 【clusterd】【修改说明】日志及字段优化 -5f3fd2b !569 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度 Merge pull request !569 from YangLei/master -ac98fc0 【ascend device plugin】修改DT -b50b76c 【ascend device plugin】修改DT -bae72e4 【ascend device plugin】修改检视 -2393616 【ascend device plugin】修改检视 -8af3b82 !567 【修改说明 Modification】存在未回复的ping,忽略该次结果 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】存在未回复的ping,忽略该次结果 -75852a4 !570 【volcano】【修改说明】volcano重构--日志调整 * 【volcano】【修改说明】volcano重构--日志调整 -b46889d !536 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块 -5c1f838 !563 【volcano】【修改说明】volcano重构--test用例补充 * 【volcano】【修改说明】volcano重构--test用例修改 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 -2fbab58 !568 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息 * 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息 -41e7609 !558 【ascend-device-plugin】【修改说明】yaml挂载localtime * 【ascend-device-plugin】【修改说明】yaml挂载localtime -153d7dd !559 【taskd】【修改说明】设置构建包版本 * 【taskd】【修改说明】设置构建包版本 -78dea97 (dev) 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度 -ad18d17 Merge branch 'master' of https://gitee.com/ascend/mind-cluster -0e1df89 !550 【ascend device plugin】离线复位适配带外,推理复位写节点注释 * 【ascend device plugin】修改DT * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修改检视 * 【ascend device plugin】补充DT * 【ascend device plugin】修复DT报错 * 【ascend device plugin】离线复位适配带外,推理复位写节点注释 -70bf2e3 【ascend device plugin】修改DT -a6fa251 !565 【修改说明】【clusterD】支持指标统计,DT代码上库 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 -c849110 !547 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 -c8943af 【ascend device plugin】修复DT问题 -14f90ac 【ascend device plugin】修复DT问题 -e00dd9a 【ascend device plugin】修复DT问题 -8949e83 【ascend device plugin】修改检视 -93ec0a6 !562 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh -954df6e !551 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 -f857455 !530 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh -073ccd2 !561 【device-plugin】【修改说明】dp增加kubelet重注册机制 * re register to kubelet when connect failed -fc4dacd !555 1. 【clusterd】【修改说明】修复clusterd启动后存在5min功能异常问题 * 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块 -890ef45 !557 【clusterd】【修改说明】对外展示公共故障时间戳单位为秒 * 【clusterd】【修改说明】对外展示公共故障时间戳为秒 -aa11a44 !554 telegraf增加vnpu相关指标 * fix * fix * fix * fix * fix * [npu-exporter]telegraf上报vnpu * [npu-exporter]telegraf上报vnpu * [npu-exporter]调整telegraf更新接口 * [npu-exporter]调整一下vnpu相关 * [npu-exporter]容器相关指标调整 -f9cb3a2 !553 【device plugin】recovertimeout范围修改 * 【修改说明】recovertimeout范围修改 -fd8de06 【ascend device plugin】补充DT -b4dfee0 !508 【taskd】 cleancode python文件缩进格式及空行修改 Merge pull request !508 from 郭鹏鑫/master -2cd965e taskd cleancode 文件单双引号统一 -6ccd629 Revert "taskd cleancode DT构建失败修改" -d0f94fd !545 【volcano】【修改说明】volcano重构--数据初始化模块优化 Merge pull request !545 from fengjianqing/vnpu -125ffeb taskd cleancode DT构建失败修改 -56f81c9 !533 【device-plugin】【修改说明】node annotation 增加超节点id信息 * add super node id info on node annotation -f78b7f5 !532 【clusterd】【修改说明】domain层维护超节点设备信息 * change superNode to superPod -1a5271e Merge branch 'master' into cleancode -980e824 【ascend device plugin】修复DT报错 -de24c0a 【ascend device plugin】离线复位适配带外,推理复位写节点注释 -c7fc19e 【volcano】【修改说明】volcano重构--plugin目录优化 -946f0b2 Merge https://gitee.com/ascend/mind-cluster into vnpu -11ccf00 【volcano】【修改说明】volcano重构--plugin目录优化 -2a5ee28 !542 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例 * 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例 -0fe363e !544 【nodeD】noded支持pingmesh-wather、executor及编译、部署适配 * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】noded支持pingmesh-wather、executor * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into pi… * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh -f35892d 【volcano】【修改说明】volcano重构--数据初始化模块优化 -9b7376c !539 【clusterd】【修改说明】【微重构】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 -483da08 !540 【clusterd】【修改说明】变更公共故障时间戳单位为ms Merge pull request !540 from weihaoran/pub_ms2 -02a7911 !541 【DCMI】【hwlog】hwlog增加CustomLogger接口,DCMI-pingemsh接口补充 * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh -a9991f0 !526 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 -3735526 !434 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 -945f4ef 【clusterd】【修改说明】变更公共故障时间戳单位为ms -a579686 !535 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volcano的故障reason有PublicFault就显示PublicFault * 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volc… -8d3ad24 !534 【ascend device plugin】检查到设备健康就清除复位计数 Merge pull request !534 from YangLei/master -c0f0dfa 【ascend device plugin】检查到设备健康就清除复位计数 -25bf1bf !523 【ascend device plugin】训练在线复位增加带外复位 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】增加DT * 【ascend device plugin】增加DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复clean coded * 【ascend device plugin】优化代码逻辑 * out band reset for train online, try out band and update node annotation * temp dev 0226 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复编译问题 * fix build error * 【ascend device plugin】修复cleancode * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步 * 【ascend device plugin】类重命名,职责最小化 -59261ac !529 【clusterd】【修改说明】公共故障码更新 * 【clusterd】【修改说明】公共故障码更新 -73a7a8a !525 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存 -dba19e7 !522 [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]clean * [npu-exporter]clean * [npu-exporter]DT * [npu-exporter]DT * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整 -abd38ba !517 [npu-exporter] implement vNPU metrics support * added nil check before dereferencing * implemented CollectToCache and UpdatePrometheus for vNPU * use activityVDev copy instead of same variable -ddcfb96 taskd cleancode python文件缩进格式及空行修改 -ec767a2 !519 【ascend device plugin】1. 添加dcmi接口 2. 修改类名 * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步 -1f2c1fb !521 【clusterd】【修改说明】【微重构】needDeleteQueue类上移 * 【clusterd】【修改说明】needDeleteQueue类上移 -c315c9f !520 【clusterd】【修改说明】公共故障description正则修改 * 【clusterd】【修改说明】公共故障description正则修改 -3e91efe !501 【修改说明 Modification】增加hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 -aed59e8 !512 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复 Merge pull request !512 from wangjun/dp_bugfix -85d13c1 !516 [npu-exporter]DT * [npu-exporter]DT -2f9cbc9 !513 [npu-exporter]fix:极端场景下的高并发问题、process指标label中补充containerID信息 * [npu-exporter]fix:极端场景下的高并发问题 -a347698 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复 -61a2ad2 !457 【ascend device plugin】周期检查复位失败标记,判断是否清除 * 【ascend device plugin】解冲突 * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】DT * 【ascend device plugin】修复检视意见 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】每张卡的复位状态独立,分别通过数组保存三方复位的芯片和人工复位的芯片 * Revert "【ascend device plugin】修复clean code导包顺序" * 【ascend device plugin】修复clean code导包顺序 * 【ascend device plugin】修复clean code和编译问题 * 【ascend device plugin】周期检查复位失败标记,判断是否清除 -ad2bbcf !511 【clusterd】【修改说明】公共故障校验日志优化 Merge pull request !511 from weihaoran/pub_log2 -e779f82 !472 【volcano】【修改说明】volcano重构--重调度模块简化一 Merge pull request !472 from fengjianqing/fault -18c88c6 !499 【clusterd】【修改说明】新增公共故障码 * clusterd支持统一故障推送 -3cc9268 联调包 -e0723d0 !506 【device-plugin】【修改说明】dp创建containerd客户端初始化优化及dt补充 Merge pull request !506 from wangjun/dp_micro_refactor -07e2263 【device-plugin】【修改说明】dp创建containerd客户端初始化优化 -3eb429f taskd cleancode python文件缩进格式及空行修改 -5b511e8 !509 构建包添加yaml文件 Merge pull request !509 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms -f8132b5 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms -f7bc10c 构建包添加yaml文件 -3770242 !505 【clusted】【修改说明】完善公共故障信息打印 * clusterd支持统一故障推送 -8aa6e65 taskd cleancode python文件缩进格式及空行修改 -ca09b00 !504 【device-plugin】【修改说明】cleanCode修改 Merge pull request !504 from wangjun/dp_cleancode -ebf9cae !503 [npu-exporter]cleanCode修改 * [npu-exporter]cleanCode修改 -ffd86fc !502 【volcano】【修改说明】not stable条件修改 * clusterd支持统一故障推送 -7b942c2 【device-plugin】【修改说明】cleanCode修改 -658251a Merge remote-tracking branch 'origin/master' -43f8db2 !498 【device plugin】【clusterd】【taskd】【volcano】【common】clean-code整改 * 【修改说明】cleancode -85ab90a Merge remote-tracking branch 'origin/master' -6e073e0 【修改说明】cleancode-数组下标越界 -78f378d !497 clusterd支持统一故障推送 Merge pull request !497 from weihaoran/pub_opti3 -eb7b28c clusterd支持统一故障推送 -0896060 【修改说明】cleancode -aa61915 !496 【device-plugin】【修改说明】dp与容器通信yaml修改 * 【device-plugin】【修改说明】dp与容器通信yaml修改 -5980077 !494 clusterd支持统一故障推送 * clusterd支持统一故障推送 -3d822e7 !491 日志库回滚策略配置提交 * 日志库回滚策略配置 -1725473 !493 增加init * Merge remote-tracking branch 'upstream/master' into feature/grace_tole… * 包增加init * 包增加init -a362a83 !492 clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 -5d1e0aa Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms -d9a6815 包增加init -de86009 包增加init -9994827 【volcano】【修改说明】volcano重构--重调度模块简化一 -4d8bb82 !490 增加ms进程级恢复 Merge pull request !490 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms -4159456 !470 【修改说明】【clusterd】clusterd支持故障统一推送 * clusterd支持统一故障推送 -f593dd2 增加ms进程级恢复 -3625d9b Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms -3651ee6 !489 增加故障恢复模块及grpc * 增加故障检测和恢复模块 -fd0db7e 增加故障检测和恢复模块 -b614ba5 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms -6954feb 增加故障检测和恢复模块 -b332b99 !469 初始化taskd 基础代码 * dt修改 & 检视修改 -21d244b !488 【npu-exporter】重构拆分5 * 2 * 2 -914753b !487 【npu-exporter】重构拆分4 Merge pull request !487 from dongpeng30/refactor_4 -c5e53b9 dt修改 & 检视修改 -1a84a89 !483 【device-plugin】【修改说明】dp请求apiserver与初始化客户端冲突问题处理 Merge pull request !483 from wangjun/dp_apiserver_fix -74b0674 dt修改 & 检视修改 -ca968da !486 【npu-exporter】重构拆分3 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1 -6e823ef !479 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复 -9e23978 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms -3267ba5 dt修改 & 检视修改 -b876475 !468 【taskd】【修改说明】上传日志模块基础代码 * 上传日志模块基础代码 -2c9dd02 dt修改 & 检视修改 -5e66424 dt修改 & 检视修改 -ea8aaf6 dt修改 & 检视修改 -d67d845 !485 【npu-exporter】重构2 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1 -fd6535b !484 【修改说明】npu-exporter重构拆分1 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1 -d44177b !481 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务 Merge pull request !481 from fengjianqing/debug -736d9b5 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务 -59a083d !478 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 -f6bd880 !476 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 -d61aea6 !474 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 -b424637 !475 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 -11b8af0 【volcano】【修改说明】volcano重构--重调度模块简化一 -b87a535 dt修改 & 检视修改 -9fb083a !467 noded通过ipmi获取sn信息并写入node的annotation上 Merge pull request !467 from wuweilin/master-0215 -fd13272 Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms -1da950b noded通过ipmi获取sn信息并写入node的annotation上 -4cfd5a9 !466 【device-plugin】【修改说明】dp组件日志刷屏问题修复 Merge pull request !466 from wangjun/dp_log -401b090 !431 【修改说明】整机调度优化通过端口获取Pod信息 * 【修改说明】整机调度优化通过端口获取Pod信息 -ba93674 上传msmgr -6765263 修改包路径 -727f42d !458 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 -fccf7bb !465 【volcano】【修改说明】A3 A+X亲和性调度 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * Merge remote-tracking branch 'origin/master' into a+x-dt * 【volcano】【修改说明】A3 A+X亲和性调度 DT补充 * 【volcano】【修改说明】支持A3 A+X亲和性调度 -1d6d581 !453 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 -d259dfa elastic agent原始代码迁移 -b9a7a58 !438 switch适配修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * dt修复 * 检视修改 * 修改日志打印 * 修改打印 * 修改dt * 修改dt * 修改dt * switch适配修改 dt * 适配逻辑修改 * switch适配修改 * 修改common库路径使得其他仓库可以引用 -3cf6237 【device-plugin】【修改说明】dp组件日志刷屏问题修复 -e2c7118 【device-plugin】【修改说明】dp组件日志刷屏问题修复 -049918a !454 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * Merge https://gitee.com/ascend/mind-cluster into 330 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 -d7bb1a7 【device-plugin】【修改说明】dp组件日志刷屏问题修复 -3a06eb4 !444 【修改说明】[clusterd]-cleancode * 【修改说明】[clusterd]-cleancode -b852283 !449 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程 * 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程 -9839d35 !436 【taskd】【修改说明】taskd初始化提交 * taskd初始化提交 -aeef459 !440 修改故障码 * 修改故障码 -02bb3bd !455 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy * 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy -6a6b09f !448 【clusterd】【修改说明】add test for recover plugin * add test for recover plugin -6e1053d !447 【clusterd】【修改说明】add test for controller * ut -3f977c5 !452 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 -98be6af !451 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报 * 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报 -9692227 !446 【clusterd】【修改说明】add test for recover service * comment fix -8376d71 !437 【修改说明】增加cardID、deviceID缓存 * 【修改说明】增加cardID、deviceID缓存 -17756d8 !429 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录分层 -96b8dde !439 修改0x08520003 增加na * 修改0x08520003 增加na -69042ec !425 【修改说明】[clusterd]cleancode * 【修改说明】[clusterd]-cleancode -61f6574 !435 【volcano】【修改说明】volcano重构--删除冗余代码 * 【volcano】【修改说明】volcano重构--删除冗余代码 -09f7ebc !432 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】【NodeD】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 -5ec771a !397 【ClusterD】仅支持dump场景直接通知mindio保存ckpt * 【ClusterD】仅支持dump场景直接通知mindio保存ckpt -b876f86 !423 【ascend-for-volcano】适配clusterd主动保存ckpt场景 * 【ascend-for-volcano】适配clusterd主动保存ckpt场景 -9b69604 !426 【修改说明】【clusterD】DT用例 clean code * 【修改说明】【clusterD】DT用例 clean code -75113e1 !427 【修改说明】[clusterd]faultmanager重构-bugfix * 【修改说明】[clusterd]faultmanager重构-bugfix -966d12a !414 【修改说明】[clusterd]faultmanager重构-faultmanager的功能下沉到faultdomain中 * 【修改说明】[clusterd]faultmanager重构-处理v6 rebase on v5 -d31b111 !413 【修改说明】[clusterd]faultmanager重构-job fault rank、fault job、cmmanager、各个center单独提出来。 * 【修改说明】[clusterd]faultmanager重构-v5 rebase on v4 处理冲突 -cfb6827 !412 【修改说明】[clusterd]faultmanager重构-uce_accompany单独提出来。 * 【修改说明】[clusterd]faultmanager重构-cleancode -b270c67 !424 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test * 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test -b315c7e !410 【修改说明】[clusterd]faultmanager重构-DT * 【修改说明】[clusterd]faultmanager重构-dt -5896898 !407 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来 Merge pull request !407 from lirui238/fm-refactor-v3 -c844a6d !416 【修改说明】【ClusterD】complete grpc common package DT test * add DT -b87310f !420 【volcano】【operator】【clusterD】clean-code整改 * 【修改说明 Modification】clean-code -8538344 !417 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 -063cbf0 !405 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网 * 【修改说明】[operator] 修改变量设置值,以及优化日志 * Merge remote-tracking branch 'origin/master' into dynamic-hccs-env * 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网 -be4875a !411 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * Merge branch 'master' of https://gitee.com/shepherd_cheung/mind-cluster * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 -468d02b !409 【修改说明】【ClusterD】bug fix for div zero * add div zero check * fix devicePerNode is 0 -7fb4ed1 !358 【修改说明】【ClusterD】add grpc common package DT test * fix test name * fmt * fmt * change Ltd time * fix test * add test * add test * add test * init logger * add dt test -36f7c08 !401 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 -83fca4c 【修改说明】[clusterd]faultmanager重构-bugfix -6ffe87f 【修改说明】[clusterd]faultmanager重构-dt -5c0a5c6 【修改说明】[clusterd]faultmanager重构-bugfix -29776c5 【修改说明】[clusterd]faultmanager重构-codecheck -ca08fe6 【修改说明】[clusterd]faultmanager重构-根据cm更新,判断是否需要处理 -f0f916c 【修改说明】[clusterd]faultmanager重构-从pg获取resource type -5bf0a71 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来 -825506b 【修改说明】[clusterd]将informer缓存起来,防止丢失故障信息 -c93909f !394 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 -cfbcfd4 !361 【ascend-operator】微重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 -f58964a !391 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。 Merge pull request !391 from lirui238/manuallysparatenpu-handle -b389c85 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。修复检视意见。 -1f0a7f0 !373 【volcano】【修改说明】算力切分支持B2模板 Merge pull request !373 from fengjianqing/master -599fb51 !392 【修改说明】【noded】clean-code修改 Merge pull request !392 from weihaoran/noded-cleancode -06a5cd1 【volcano】【修改说明】算力切分支持B2模板 -aaf1035 !393 【修改说明】cleancode-格式化 * 【修改说明】cleancode-格式化 -4f736b4 !390 【volcano】【修改说明】补充DT用例 * 【修改说明】cleancode问题修改 * 【修改说明】cleancode问题修改 * 【修改说明】补充DT用例 -343565c 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。 -be09550 !382 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。 * 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。 -29cd535 !383 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * Merge branch 'master' of gitee.com:ascend/mind-cluster * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * 【修改说明】整体利用率、pciebandwidth指标刷屏-todo -803c3ba !379 job重构DT补充吗,去掉-race Merge pull request !379 from wuweilin/master-0107 -2b4aa5a !386 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作' Merge pull request !386 from luxiang6/revert-merge-338-master -64d72d5 (upstream/revert-merge-338-master, origin/revert-merge-338-master) 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作' -07a420a !362 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。 Merge pull request !362 from lirui238/uce-accompany-fix -f33e386 !375 【volcano】【修改说明】补充DT用例 Merge pull request !375 from wangjun/master -c088c49 !370 【device-plugin】【修改说明】 补充DT用例 Merge pull request !370 from 郭鹏鑫/DT -143f4c3 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。检视意见 -dd3642f 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。用例设计 -b94e225 Merge remote-tracking branch 'gpx/DT' into DT -c2fda3c 【修改说明】device-plugin kubeclient 补充DT用例 -d5eb93b Merge remote-tracking branch 'origin/master' into DT -07cda12 【修改说明】device-plugin kubeclient 补充DT用例 -63203d3 Merge remote-tracking branch 'gpx/DT' into DT -05b8917 【修改说明】device-plugin kubeclient 补充DT用例 -36bb23f 【修改说明】device-plugin kubeclient 补充DT用例 -433e7a2 !378 【修改内容】【volcano】增加DT用例 * 【修改内容】【volcano】增加DT用例 -aa56882 !356 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 -8baf65f 【修改说明】device-plugin kubeclient 补充DT用例 -d446766 !377 【修改说明】noded剩余ut补充 * 【修改说明】noded剩余ut补充 -6278e62 Merge remote-tracking branch 'gpx/DT' into DT -b750d60 【修改说明】device-plugin kubeclient 补充DT用例 -b12a160 job重构DT补充吗,去掉-race -3bfc81e !338 【修改说明】去除更新fault-config-cm的冗余操作 * 【修改说明】去除更新fault-config-cm的冗余操作 -218c1b0 !128 【轻量级 PR】:support pod that has multiple containers and only one of containers has NPU Merge pull request !128 from kingeasternsun/fix/get-aicorenum-fromtask -5df28dc !127 【轻量级 PR】:getVirTemplate 中 virTemplate 参数无用 Merge pull request !127 from kingeasternsun/improve/get-vir-template -8dad30b 【修改说明】补充DT用例 -358cbd4 【修改说明】补充DT用例 -3aac3df Merge branch 'master' of gitee.com:ascend/mind-cluster into DT -91a1bdd 【修改说明】device-plugin kubeclient 补充DT用例 -cc9ac3d !366 【修改内容】Volcano增加DT用例 Merge pull request !366 from wangjun/master -c5b9804 !365 job重构DT补充 Merge pull request !365 from wuweilin/master-1228 -6415e33 job重构DT补充 -d36e349 !364 【修改内容】Volcano增加DT用例 * 【修改内容】增加DT用例 -508bf2c !369 【volcano】【修改说明】补充DT用例 Merge pull request !369 from fengjianqing/master -3cf1b1d 【修改说明】补充DT用例 -1243238 【修改说明】补充DT用例 -768f251 !367 【修改说明】cleancode修改-33 * 【修改说明】cleancode修改-33 -2be4d6d 【volcano】【修改说明】补充DT用例 -a4f9996 【修改说明】device-plugin kubeclient 补充DT用例 -8420263 【修改说明】device-plugin kubeclient 补充DT用例 -3de247a 【修改说明】device-plugin kubeclient 补充DT用例 -da64a1c 【修改说明】device-plugin kubeclient 补充DT用例 -9fd81b5 【修改说明】device-plugin kubeclient 补充DT用例 -9262b0e 【修改说明】补充DT用例 -f331bd0 【修改说明】补充DT用例 -5bb1fb6 【修改说明】device-plugin kubeclient 补充DT用例 -c2687e9 【修改说明】device-plugin kubeclient 补充DT用例 -d10c65d !363 【volcano】【修改说明】补充DT用例 Merge pull request !363 from fengjianqing/master -ec5d7a4 【修改说明】补充DT用例 -5d2300d 【修改说明】补充DT用例 -1ff8a96 【修改说明】补充DT用例 -afc138f 【修改说明】补充DT用例 -a5cc2ca 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。 -639da31 !357 job重构DT补充 Merge pull request !357 from wuweilin/master-1228 -8948a82 job重构DT补充 -dbdc0e0 【volcano】【修改说明】补充DT用例 -2db478f !348 【修改说明】noded config包、kubeclient包DT补充 * 【修改说明】noded config包、kubeclient包ut补充 -7986814 !321 dt新增用例 Merge pull request !321 from fengjianqing/master_fix -9fff6da !360 【volcano】【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 -a0a3454 !329 【修改内容】仓库名称修改 Merge pull request !329 from luxiang6/master -466bac7 !355 【device-plugin】【修改说明】修改DT用例 Merge pull request !355 from zhoupan39/master -d5d6c9b !359 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例 -cbb442f !346 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例 -259268d 【device-plugin】【修改说明】多个打桩函数写入一个变量 -5958268 【volcano】【修改说明】补充DT用例 -bfec1dc 【device-plugin】【修改说明】修改DT用例 -0be6539 !354 【volcano】【修改说明】补充DT用例 Merge pull request !354 from wangjun/volcano_dt3 -2af9963 !353 【volcano】【修改说明】补充DT用例 Merge pull request !353 from wangjun/volcano_dt2 -03c9571 !352 【volcano】【修改说明】补充DT用例 Merge pull request !352 from wangjun/volcano_dt -0528b4f 【修改说明】补充DT用例 -92ec347 【修改说明】补充DT用例 -1d4724c 【修改说明】补充DT用例 -76cb663 当任务变更成failed或者completed状态时,新增deleteTime -1ec1774 !345 【device-plugin】【修改说明】补充DT用例 Merge pull request !345 from zhoupan39/dt2 -80eca72 !319 【device-plugin】【修改说明】补充DT用例 Merge pull request !319 from zhoupan39/master -cbbda0e 【device-plugin】【修改说明】补充DT用例 -e1dc166 【device-plugin】【修改说明】补充DT用例-第二批 -b2b3727 !340 【修改说明】noded common包ut补充 * 【修改说明】noded common包ut补充 -93264bb !326 【修改说明】[clusterd]增加ut Merge pull request !326 from lirui238/clusterd-faultmanager-ut -f1e6a64 !337 job重构DT补充 Merge pull request !337 from wuweilin/master-1228 -d854ed0 !313 【device-plugin】【修改说明】 补充DT用例 Merge pull request !313 from 郭鹏鑫/DT -46a8c14 !341 【修改说明】增加DT * 【修改说明】DT -9840460 !333 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 -3e1d53e job重构DT补充 -a3034d9 【修改说明】device-plugin kubeclient 补充DT用例 -e9e789f 【修改说明】device-plugin kubeclient 补充DT用例 -1be5f47 【修改说明】device-plugin kubeclient 补充DT用例 -16fde83 【修改说明】device-plugin server 补充DT用例 -e821708 【修改说明】device-plugin server 补充DT用例 -42aaf70 【修改说明】device-plugin server 补充DT用例 -7f60807 【修改说明】device-plugin server 补充DT用例 -d5a65d0 【修改说明】device-plugin server 补充DT用例 -1284602 【修改说明】device-plugin server 补充DT用例 -36a5026 【修改说明】device-plugin server 补充DT用例 -8a76420 【修改说明】device-plugin server 补充DT用例 -2608296 【修改说明】device-plugin server 补充DT用例 -7df28a4 【修改说明】device-plugin server 补充DT用例 -9b42b26 !335 【修改说明】删除非软件故障pod label Merge pull request !335 from tiankaijin/fixmaster -c54482b 【修改说明】device-plugin server 补充DT用例 -ce3cf2a 【修改说明】device-plugin server 补充DT用例 -c461fd9 【修改说明】device-plugin server 补充DT用例 -e8551be 【修改说明】device-plugin server 补充DT用例 -27b90f4 fix label -f357d03 【修改说明】device-plugin server 补充DT用例 -a8d5b8f 【修改说明】device-plugin server 补充DT用例 -0f2510c 【修改说明】device-plugin server 补充DT用例 -88fb9c0 【修改说明】device-plugin server 补充DT用例 -f104241 【修改说明】device-plugin server 补充DT用例 -02f8701 【修改说明】device-plugin server 补充DT用例 -767742a 【修改说明】device-plugin server 补充DT用例 -7ddb3f5 【修改说明】device-plugin server 补充DT用例 -6b4a600 【修改说明】device-plugin server 补充DT用例 -848634e 【修改说明】device-plugin server 补充DT用例 -a379e0b 【修改说明】device-plugin server 补充DT用例 -9cfdaf0 【修改说明】device-plugin server 补充DT用例 -2bcaed3 【修改说明】device-plugin server 补充DT用例 -cd6007d 【修改说明】device-plugin server 补充DT用例 -261bb7f 【修改说明】device-plugin server 补充DT用例 -6afa791 【修改说明】device-plugin server 补充DT用例 -9c21d5e 【修改说明】device-plugin server 补充DT用例 -d79c0c2 【修改说明】device-plugin server 补充DT用例 -1dd51a8 【修改说明】device-plugin server 补充DT用例 -646238e 【修改说明】device-plugin server 补充DT用例 -6be3116 【修改说明】device-plugin server 补充DT用例 -6984805 【修改说明】device-plugin server 补充DT用例 -9edadca 【修改说明】device-plugin server 补充DT用例 -429e06c Merge branch 'master' of https://gitee.com/luxiang6/mindxdl -d894bc4 改名修改 -e0ba793 !327 【修改说明】[clusterd]修改clusterd关联故障时间 Merge pull request !327 from fengjianqing/tmp -71db399 【修改说明】[clusterd]修改clusterd关联故障时间 -17a93ab 【修改说明】device-plugin kubeclient 补充DT用例 -d71cf65 【修改说明】device-plugin kubeclient 补充DT用例 -1967c7b 【修改说明】device-plugin kubeclient 补充DT用例 -1ff53c4 【修改说明】[clusterd]增加ut -e406e6d !298 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula -85d26da !323 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度 Merge pull request !323 from fengjianqing/tmp -dea302f 【修改说明】device-plugin kubeclient 补充DT用例 -7b25b0e 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度 -07a06c1 !318 【修改说明】支持平台修改策略 & 平台场景去掉等待调度成功逻辑 Merge pull request !318 from tiankaijin/x1fix -9237dd6 【修改说明】device-plugin kubeclient 补充DT用例 -05fa864 fix -8657cd8 !314 【clusterD】【nodeD】clean-code整改 Merge pull request !314 from Atlas_zxp/master-cleancode -fffe7c9 Merge branch 'refs/heads/master' into DT -496be09 fix -169a7b1 !299 【修改说明】[npu-exporter]修复crypto漏洞 Merge pull request !299 from lirui238/crypto-issue -1d6902f !311 【clusterd】【修改说明】文件初始化问题修复 Merge pull request !311 from fengjianqing/master_fix -1748081 【修改说明】device-plugin kubeclient 补充DT用例 -24bd0c9 【修改说明】[npu-exporter]修复crypto漏洞 -7d752dd 【修改说明】device-plugin kubeclient 补充DT用例 -cbff6f7 【修改说明】device-plugin kubeclient 补充DT用例 -ab5110d 【修改说明】device-plugin kubeclient 补充DT用例 -0ab07a8 【修改说明】device-plugin kubeclient 补充DT用例 -fafcafc 【修改说明】device-plugin kubeclient 补充DT用例 -6de0bed 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -6a36e95 【修改说明】device-plugin kubeclient 补充DT用例 -cdf3b96 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -a385ac6 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -0271e91 Merge branch 'master' into DT -d5233d6 【修改说明】device-plugin kubeclient 补充DT用例 -111a1c2 【clusterd】【修改说明】文件初始化问题修复 -f72b526 Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl -bd84944 !309 补充NSLB2.0厂家的masterAddr参数 Merge pull request !309 from wuweilin/master-1221 -c1c2815 !308 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复 -df36db4 补充NSLB2.0厂家的masterAddr参数 -af87c6a !306 【修改说明】等待AI平台ProcessResultFault逻辑去掉长度为0判断 * fix -9d4f4e3 !304 【修改说明】重复label问题修复 * fix * fix -5a8d424 !302 【修改说明】jobName换pgName Merge pull request !302 from tiankaijin/x1 -167cc89 fix -fdfca00 !218 【lssue】Device-Plugin getDeviceFaults增加频率类型网络故障相关代码 Merge pull request !218 from 郭鹏鑫/frequency -52b2347 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix -a1633b2 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix -0124134 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix -2703ade 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix -b51639d 【修改说明】device-plugin kubeclient DT -c24bcec 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充 -9fa8b55 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充 -2318727 !282 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 -af02981 !279 【clusterD】【volcano】【nodeD】【断点续训】nodeD不再上报节点心跳,volcano、clusterD适配修改 Merge pull request !279 from Atlas_zxp/remove-heartbeat -c62786f !293 【volcano】【断点续训】volcano为节点打分时,最低分为0 Merge pull request !293 from Atlas_zxp/cherry-pick-1734601670 -c2d58c6 Merge remote-tracking branch 'upstream/master' -8eee278 【修改说明 Modification】volcano为节点打分时,分布不能为负值 (cherry picked commit from -ee08ddd 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -2616428 !284 【clusterd】【修改说明】修复多次打印日志的问题 Merge pull request !284 from wsy/111master -7388014 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -532afff 【修改说明】device-plugin frequency 整卡故障和网络故障区分 -6f530ff 【修改说明 Modification】nodeD不再上报节点心跳,volcano、clusterD适配修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -3e5af31 【修改说明】device-plugin frequency 整卡故障和网络故障区分 -84ec8bd 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -4f10786 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -6c39987 Merge branch 'master' into frequency -fc82b1f Merge remote-tracking branch 'origin/master' -6cc1bc7 !288 【dcmi】【芯片网络状态查询】goroutin泄露问题修改 Merge pull request !288 from Atlas_zxp/memoryleak-bugfix -0712fb7 !289 【修改说明】修复github.com/opencontainers/runc漏洞 Merge pull request !289 from lirui238/dts-runc-v1.1.5-prob -901d018 !286 【修改说明】软件故障直接触发pod打标签(AI平台场景) Merge pull request !286 from tiankaijin/label -d70ee5f fix -956af44 【修改说明】修复github.com/opencontainers/runc漏洞 -7e6eaac 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -71b842a 【修改说明】A3网络故障适配 -bb533c0 !276 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题 * 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题 -565c988 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -cbd0275 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -22356dd 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -3aee668 Merge branch 'master' into frequency -c857acd Merge remote-tracking branch 'origin/master' -ad50fe8 !265 【修改说明】cleancode Merge pull request !265 from tiankaijin/master -7fa1cdc !274 解决偶现hccl不完整的问题 Merge pull request !274 from wuweilin/master-1216 -9aa16b7 解决偶现hccl不完整的问题 -ee54000 !273 支持网络关联故障bug修复 Merge pull request !273 from fengjianqing/new -8bc99e6 fix -65f062d RC3支持网络关联故障bug修复 -4be5ae7 !270 【DP】【修改说明】cqe错误码改为L1 Merge pull request !270 from wsy/code -773d8ed 【修改说明】A3网络故障适配 -757df07 【修改说明 Modification】volcano不检测nodeD上报的心跳 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -6957c6f 【修改说明】A3网络故障适配 -087c785 【修改说明】A3网络故障适配 -cefa11d fix -1c25349 Merge remote-tracking branch 'origin/master' -f5c2aaf clean code -7a008cf 【修改说明 Modification】取消心跳上报,节点状态有更新才上报 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -18a3090 !261 【修改说明】解决部分指标刷屏日志 * 【修改说明】刷屏日志处理 -fcf3fd7 !259 【修改说明 Modification】switch和node故障支持进程级恢复补充修改 Merge pull request !259 from Atlas_zxp/process-bugfix -6864b01 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -1c101d4 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -4f85875 !252 【修改说明】兜底mindio和mindx开关不一致问题 Merge pull request !252 from tiankaijin/fixSwitch -a9dc9ba 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -669d371 fix -d3674db 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -57d7f98 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -4af716a 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -a8f57e4 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -23acd29 fix -4b44fa4 !253 【修改说明 Modification】switch和node故障支持进程级恢复 Merge pull request !253 from Atlas_zxp/process-bugfix -08eeda3 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -bf7dc1c 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -4702205 !222 【修改说明】volcano支持关联故障 Merge pull request !222 from fengjianqing/volcano -3e602a8 Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl into process-bugfix -05e1388 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -77993a9 !133 【修改说明】A3 hccs关联故障适配 * 【修改说明】A3网络故障适配 -3feeb94 clusterd支持网络关联故障 -ea5582e !251 dp支持hccl算子重执行 Merge pull request !251 from fengjianqing/dp -9f8e0c1 !216 【clusterd支持关联故障】 * clusterd支持网络关联故障 * clusterd支持关联故障 -3e31424 fix -64717af fix -378ec8a fix -ed68f1f dp支持hccl算子重执行 -6540065 Merge branch 'refs/heads/master' into frequency -8a9d1b9 Merge remote-tracking branch 'origin/master' -e7a8e82 【修改说明】device-plugin frequency -f57eb24 【修改说明】device-plugin frequency -7a6a388 !247 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态 Merge pull request !247 from Wangmin362/jobstatus-update -d3b421d !246 【修改说明】重调度兜底hotReset=1与进程级恢复不兼容的问题 Merge pull request !246 from tiankaijin/fixHotReset -e4f9d66 !224 【修改说明】更新修复结果到annotation中 Merge pull request !224 from tiankaijin/updateResult -1567a18 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态 -9cef76f fix -e10837c fix -e362c53 update result -a049bdb fix -4d99c42 【修改说明】device-plugin frequency -77e4e75 【修改说明】device-plugin frequency -ec678f0 【修改说明】device-plugin frequency -b809297 Merge branch 'refs/heads/master' into frequency -16d5023 Merge remote-tracking branch 'origin/master' -38e981b !244 ccae联调修改 Merge pull request !244 from wuweilin/jobr5 -0e55751 fix -1e2a5c4 fix -5b6d833 ccae联调修改 -1e501f7 fix -15c78d6 !231 【修改说明】移除原来的cmManager * 【修改说明】移除原来的cmManager -86de04b !242 【修改说明】report的updatechan长度扩展 Merge pull request !242 from lirui238/cherry-pick-1733921599 -d46b86e fix -3513739 【修改说明】report的updatechan长度扩展 (cherry picked commit from -8c63ea5 !238 【修改说明 Modification】增加异常错误日志 Merge pull request !238 from Wangmin362/opt2 -eff9323 !225 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 -3735edb !226 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix Merge pull request !226 from Atlas_zxp/operator-bugfix -44b7a53 【修改说明 Modification】增加异常错误日志 -8728269 【修改说明】支持关联故障 -876fbf2 !233 【修改说明】cleanCode修改 Merge pull request !233 from dongpeng30/clean_code -7c835a5 clean code -117f303 fix -1dae39c Merge branch 'refs/heads/master' into frequency -010293e Merge remote-tracking branch 'origin/master' -3ff39c8 【修改说明】cleancode修改 -7a76e78 Merge remote-tracking branch 'upstream/master' -29950ec 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -68b186f add fix result -14d0b5c !176 【修改说明 Modification】fault manager来决策是否做step-retry Merge pull request !176 from lirui238/faultmanager-juedge-stepretry-v2 -1e45dc1 【修改说明】volcano支持关联故障 -8695017 【修改说明】volcano支持关联故障 -d11ed73 !209 【修改说明 Modification】jobCache 调整返回值顺序,删除无用代码 * 【修改说明 Modification】调整返回值顺序,删除无用代码 -60894dc 【修改说明】抽取公共方法,解决检视意见 -325c966 !203 【ascend operator】因为elastic无法读取configmap的软连接挂载,以文件形式保存rank table version字段 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * save rank table version to file -272772e !202 【修改说明】volcano支持从clusterd写的标签获取故障任务 Merge pull request !202 from fengjianqing/volcano -c5e4654 Merge branch 'refs/heads/master' into frequency -29b3b34 Merge remote-tracking branch 'origin/master' -6b87e3d 【修改说明】device-plugin frequency -8db2b7e 【修改说明】fix validBusinessReport -3b3bb36 !204 【修改说明 lock bug修复。 Merge pull request !204 from lirui238/nil-bug -88ed452 !183 [wip] 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】pg的Uid应该从Pod annotations中获取而不是labels * 【修改说明 Modification】解决合并冲突 * Merge remote-tracking branch 'origin/master' into jobCacheExpection * 【修改说明 Modification】日志信息添加pod Name以及名称空间 * 【修改说明】当从Pod无法获取PodGroup信息时,从ApiServer获取PodGroup信息,以保证断点续训可以正常的注册 * 【修改说明】修改日志级别使用方法,从Errorf修改为Error * 【修改说明】修改获取PG的判断名称空间和名字的逻辑 * 【修改说明】添加注释,修改日志级别 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 -372ebb4 【修改说明】出volcano包 -f40dd6d 【修改说明】grpc同样修改判断逻辑 -1678ee7 【修改说明】fault manager判断step retry -611b092 Merge remote-tracking branch 'origin/master' -3c3dec0 !200 【修改说明】device-plugin SetSlowNodeNoticeEnv开关参数名修改 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge remote-tracking branch 'origin/master' * Merge remote-tracking branch 'origin/master' * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix -3b7a26a 【修改说明 nil bug修复。 -5c8a282 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix -e132a2e Merge remote-tracking branch 'origin/master' -84ad338 【修改说明】device-plugin frequency -7e2f08b 【修改说明】volcano支持从clusterd写的标签获取故障任务 -af8f27f !199 1520故障码级别修复 * 1520故障码级别修复 -5bdfc97 !153 docker-runtime、operator和dp组件依赖从npu-exporter切换到ascendcommon * ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common -a6e1819 Merge remote-tracking branch 'origin/master' -9affdb6 !155 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable Merge pull request !155 from lirui238/reduce-recover-config -05db5f4 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix -e604cab 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable -6b2919b !177 【修改说明 Modification】reporter订阅faultmanager * 【修改说明 Modification】reporter订阅faultmanager -2e0b604 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix -21dfd3f 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix -4ec0089 !171 【修改说明】修复volcano偶现不触发重调度问题 * 【修改说明】修复 -0787992 !180 【修改说明】热复位去掉checkcode检查 Merge pull request !180 from tiankaijin/checkcode -62c45fb !178 【修改说明】调度失败后,将状态机走faultRetry,由volcano接管 Merge pull request !178 from tiankaijin/faultRetry -a3980d4 remove check code -266a295 fix scheduling fail case -a90e86f !172 【修改说明 Modification】clusterd使用common包,并设置日志长度为2048。 Merge pull request !172 from lirui238/clusterd-use-common-pkg -9d9fdea !175 修复加锁bug Merge pull request !175 from tiankaijin/fixrlock -bcbf925 【修改说明 Modification】clsuterd使用common包,并设置日志长度为2048。 -3fd31b7 fix -2ada92d !170 job模块重构-自测修改 Merge pull request !170 from wuweilin/jobnew2 -8c3df2a job模块重构-自测修改 -43a2a83 !169 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复 * 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复 -d7e96ab !162 在多节点下可以正确找到linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into clusterd_log * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 -201b393 !154 修复获取热复位芯片数逻辑 -1d38ad9 !157 【ascend operator】解决rank table的并发修改冲突,将pod删除事件放到reconcile进程中处理 Merge pull request !157 from YangLei/master -318ef88 !164 【修改说明】修复组件reset.json 结构不一致导致的checkCode检查失败的问题 Merge pull request !164 from tiankaijin/master -1acf3bd !168 【修改说明】取消step重计算的故障刷新时间 Merge pull request !168 from tiankaijin/sleep -6e72775 !165 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。 Merge pull request !165 from lirui238/aic-aiv-fault-report -fa56db3 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。 -6085d2f fix -1978f3c re initial servers -97c1129 fix -eb631ce patch -6573385 !167 job重构第三部分 Merge pull request !167 from wuweilin/jobnew2 -7b16718 job模块重构-第三部分 -7f08130 !166 job重构第二部分 Merge pull request !166 from wuweilin/jobnew -ead3737 job模块重构-第二部分 -8c4a213 !152 job模块重构 Merge pull request !152 from wuweilin/jobnew -b622cdf job模块重构-第一部分 -ed04c6f fix -81278fd fix reset json struct -53ec45b Merge remote-tracking branch 'upstream/master' -dfbf61b !156 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全 Merge pull request !156 from lirui238/device-plugin-faulttime-bug -49a5145 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全 -9ac2066 Merge branch 'master' of gitee.com:tiankaijin/mindxdl -c2517b3 fix -60762bc handle events in one proc -59f8451 ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common -93da42e !151 【修改说明 Modification】uce test * 【修改说明 Modification】增加uce test -adce177 !147 【修改说明 Modification】重构faultmanager中configmap的使用 * 【修改说明 Modification】重构faultmanager中configmap的使用,使用泛型 * 【修改说明 Modification】重构faultmanager中configmap的使用 -ae2f637 !148 【修改说明】修复dump和Exit策略监听pg running 的时序问题 * fix * fix * fix -c7049e3 fix -fcad3e2 !141 【修改说明 Modification】faultmanager ut Merge pull request !141 from lirui238/faultmanager-ut -8dca9b1 !139 【ascend operator】operator重启时,重置version字段 * "patch" * "patch" * Merge branch 'master' of gitee.com:ascend/mindxdl into hccl * "add comment" * "patch" * "patch" * "patch" * "add commment for exposed func" * "reset cm version when operator reboot" -92677e7 Merge remote-tracking branch 'release/master' into faultmanager-ut -2f46156 fix -fe1421f fix -3a38b34 !144 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志 Merge pull request !144 from lirui238/debug-faulttime -daa3a46 !145 【修改说明 Modification】整机调度过程优化芯片进程查询关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 -8d76d46 !135 【ascend operator】通过状态机控制ranktable保存,降低资源读写次数 Merge pull request !135 from YangLei/master -9a00f54 !146 【修改说明】cleanCode修改 * 【修改说明】cleanCode修改 -40638f6 "fix review" -bac4805 【修改说明 Modification】检视意见 -c7795f6 Merge remote-tracking branch 'release/master' into faultmanager-ut -22592f8 【修改说明 Modification】测试一张卡上不同类型的故障确实会产品两条DeviceFault数据。 -c699014 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志 -719cf7f !138 优雅容错部分微重构 * 【修改说明】 * 【修改说明】 * 【修改说明】微重构 * 【修改说明】微重构 -ef0a55b 【修改说明 Modification】删除超出PR上限的代码 -36a3222 【修改说明 Modification】合并device上的故障信息的时候,应该要根据CardUnhealthy和CardNetworkUnhealthy分类。 -0ac68bf !143 【修改说明 Modification】dp上报的fault time 有时不存在,需要打印日志 * 【修改说明 Modification】debug fault time -9deba59 !142 【修改说明】step重计算失败后499返回码补杀pod * fix * fix * Merge remote-tracking branch 'upstream/master' * fix * fix -7570c7a "patch" -8546de5 "patch" -f868678 "patch" -92d05f4 "ranktable adds status for cm and file" -d1666aa !140 【修改说明 Modification】整机全调度场景过程优化 Merge pull request !140 from wangjun/master -8edc184 【修改说明 Modification】faultmanager ut -4d7ad8e "ranktable state machine, optimize cyclomatic complexity" -8ad5ec8 【修改说明 Modification】整机全调度场景过程优化 -ce126cd !120 更新npu和1520故障码 Merge pull request !120 from zhoupan39/master -f3cfc86 "ranktable state machine, optimize cyclomatic complexity" -e86d8ba !134 【修改说明】索引为0时可以删除故障卡 Merge pull request !134 from getee0506/cqe -b400556 Merge remote-tracking branch 'origin/master' -677df8b "ranktable state machine, " -9800f12 !136 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。 Merge pull request !136 from lirui238/develop -38a6bf3 Merge branch 'master' of gitee.com:ascend/mindxdl into master -bd963ff 更新npu和1520故障码 -b1acb28 "ranktable state machine, lock ranktable write process" -94362ca 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。 -370cede !132 【修改说明】进程级恢复支持预刷新故障 * fix * fix -f5a39ea "ranktable state machine, lock ranktable write process" -9f696fa 【修改说明】cqe error后,隔离linkdown的卡 -8a21cc5 !117 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge branch 'gpx' of https://gitee.com/guopengxin/mindxdl into gpx * Merge https://gitee.com/guopengxin/mindxdl into gpx * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 -d2be1eb "ranktable state machine" -56cc382 !124 【修改说明】cleancode修改 * 【修改说明】npu-exporter适配高版本GCC编译 -507cf29 !121 noded组件依赖从npu-exporter切换到ascendcommon Merge pull request !121 from zhoupan39/dependency_change -d554b6f !123 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 Merge pull request !123 from lirui238/develop -37ca6b8 !126 【修改说明 Modification】HBM UCE场景支持 bug修复 * 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 -a65b81d !113 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 -ce74fd9 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 -c87949c noded组件依赖从npu-exporter切换到ascendcommon -2c93012 【修改说明】clean_code修改-修改检视意见 -a332b5b 【修改说明】clean_code修改-修改检视意见 -e451451 【修改说明】clean_code修改-锁释放避免跨函数调用 -cb68971 【修改说明】clean_code修改-恢复 -1e772c0 support pod that has multiple containers and only one of containers has NPU -bab39e3 fix getVirTemplate to pass golangcli-lint -977e472 【修改说明】clean_code修改-命名风格一致 -4c1bf6e 【修改说明】clean_code修改-导入包避免取别名 -ee37d0f Merge branch 'master' of gitee.com:dongpeng30/mindxdl into clean_code -cfe2e49 Merge remote-tracking branch 'upstream/master' -8487bc9 !116 【修改说明】cleanCode修改 * 【修改说明】clean_code修改 -e5763b0 "ranktable state machine" -623bdff Merge remote-tracking branch 'origin/clean_code' into clean_code -e611f6e 【修改说明】clean_code修改-关闭资源、err处理 -616e048 【修改说明】clean_code修改-避免使用全局变量 -abd4fb5 【修改说明】clean_code修改-变量被使用时才声明并初始化 -d3ad121 【修改说明】clean_code修改-敏感字样修改 -fdeec0b 【修改说明】clean_code修改 -fd94543 Merge remote-tracking branch 'upstream/master' -4a2e2ac !119 【修改说明 Modification】HBM UCE场景支持 bug修复 * 499 use exit strategy * clean code * test case * name * test case * report fault level for each event * resign processor of jobFaultRank -6deb4e6 【修改说明】clean_code修改-关闭资源、err处理 -7aa16c2 【修改说明】clean_code修改-避免使用全局变量 -5b0d880 【修改说明】clean_code修改-变量被使用时才声明并初始化 -1910a8c 【修改说明】clean_code修改-敏感字样修改 -2b8d1d8 !110 【ascend operator】自动创建ranktable文件路径,仅支持hostpath Merge pull request !110 from YangLei/master -770af95 "patch" -186b16d 【修改说明】clean_code修改 -40cde25 "patch" -b0dcc6f "patch" -2ba5e7f "patch" -d89baf6 "check directory" -4416dd2 "patch" -d60c966 解决冲突 -7024c53 !107 【修改说明】减少clusterd状态机锁范围 * Merge branch 'master' of gitee.com:ascend/mindxdl into lock -50e178c !108 【修改说明 Modification】HBM UCE场景支持 Merge pull request !108 from lirui238/device-plugin-faulttimeV2 -aa40c41 clean code -1ba9644 fault time -ac47806 "patch" -0aac697 clean code -297f90e clean code -61a46ae 【修改说明】clean_code修改 -397c6ef "patch" -3ed3ee4 "patch" -c119b83 "patch" -3864aa4 【修改说明】clean_code修改 -7d2456f 【修改说明】clean_code修改-格式化代码恢复 -d1dc5e4 【修改说明】clean_code修改-格式化代码恢复 -aa7090b 【修改说明】clean_code修改-格式化代码恢复 -6931594 "patch" -790ad3d 【修改说明】clean_code修改-文件名不能包含大写 -6f29db3 "patch" -c5cf91b "patch" -11e21f9 Merge commit 'e2b662ec' -e2b662e 【修改说明】clean_code修改-解决冲突 -f39b4be 【修改说明】clean_code修改-单行不超过120个字符;导出标识符要有注释 -d018c31 【修改说明】clean_code修改-恢复volcano中误删的导包 -abc08a1 Merge branch 'master' of https://gitee.com/yang-lei_1_0/mindxdl -580bd9b "patch" -ebed08d Merge branch 'master' of gitee.com:ascend/mindxdl into master -bc8aaab 【修改说明】clean_code修改-所有导出的标识符要有注释、文件头包含版权信息、要有包注释、下标越界等 -764e436 "fix check op" -c45492e clean code -c59a49d !76 npu-exporter公共代码提取 Merge pull request !76 from zhoupan39/master -6e86fe4 【修改说明】clean_code修改-G.CMT.01 文件头注释必须包含版权说明、G.CMT.02 每个包都应该有包注释 -6294352 fault time -5db26dd 【修改说明】clean_code修改-所有go文件格式化 -0da9bb3 build_all.sh脚本执行过程跳过编译ascend-common组件 -cfc9487 fault time -c44a17d marshal -0e677df !114 【修改说明】dp处于热复位时忽略1520故障 Merge pull request !114 from fengjianqing/sw -126be37 !111 修复pod缓存更新错误的问题 * 【修改说明】pod缓存更新错误问题修复 -46e8162 "patch" -985d759 【修改说明】dp处于热复位时忽略1520故障 -8c17885 !112 【修改说明 Modification】不处理不使用NPU卡的任务 Merge pull request !112 from Atlas_zxp/master -7086cf4 "patch" -f9c32de log -0eace61 【修改说明】clean_code修改 -d2f39b5 修改readme描述 -34a9af6 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -9e205f8 "patch" -7faffdc "patch" -ed793e7 !109 npu-exporter、dp适配高版本gcc编译 * 【修改说明】device-plugin适配高版本GCC编译 * 【修改说明】npu-exporter适配高版本GCC编译 -7e662e6 "patch" -8a566b2 修改readme描述 -58019b2 add 310p -1918bd0 npu-exporter公共代码提取 -20d43cc 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -4cfa7d1 "patch" -c611a9e "patch" -3ecdeb0 Merge remote-tracking branch 'release/master' into device-plugin-faulttimeV2 -15e57ea "auto mkdir for ranktable file" -aba84f6 【修改说明】device-plugin适配高版本GCC编译 -8e48397 【修改说明】npu-exporter适配高版本GCC编译 -f2d6f75 log -788f844 provide getJobFaultRankInfosFilterLevel for state-machine -2abc957 device-plugin report all fault time -c2839d0 Merge branch 'master' of https://gitee.com/ascend/mindxdl -32fa373 remove fault time report -ade4aee !96 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 -cae72e5 !88 【修改说明 Modification】clusterd&master pod svc ip获取优化 Merge pull request !88 from 李鸣沼/log-fix -c1943c4 device-plugin report all fault time -a5016f5 !106 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !106 from lirui238/bug-fix -832fb08 bug fix -deb72e0 !77 【修改说明 Modification】deployment任务适配superPod Merge pull request !77 from Atlas_zxp/master -c424d5c 【修改说明】clusterd&master pod svc ip获取优化 -3f3f057 !103 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !103 from lirui238/uce-bug -ec1d287 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -12dcd8c log readable -c35b2ba bug fix -955aabb !101 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !101 from lirui238/uce-bug -17d12d7 split commit pr3 -d7da38f !99 【修改说明】AI平台相关代码已经grpc service代码合入 * AI平台相关代码已经grpc service代码合入 -c5ce5a9 !95 【修改说明 Modification】HBM UCE场景支持 PR3 Merge pull request !95 from lirui238/uce -45ece41 split commit pr3 -c7fb148 split commit pr3 -24c6e01 Merge branch 'master' into uce-pr1 -2542038 split commit pr3 -eae098b !94 【修改说明】90pr拆分部分代码合入 * fix -1b6408a !90 【修改说明】进程级恢复主逻辑controller代码 * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * change max line length * fix * add main process recover logic -bb9e397 !92 【修改说明 Modification】HBM UCE场景支持 Pr2 * split commit pr2 * Merge branch 'master' into uce-pr1 * split commit pr2 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete -af5d7a5 split commit pr2 -8866943 Merge branch 'master' into uce-pr1 -7946f8f split commit pr2 -b9a9049 !83 【修改说明 Modification】HBM UCE支撑 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete -1a0cc58 split commit pr1 -e1a0ca3 Merge remote-tracking branch 'origin/master' into uce -ef6c0de all test commit -03bab58 Restore Volcano Changes -5f5e64c debug: channel buffer and processLimit -35baf95 Merge branch 'master' of https://gitee.com/ascend/mindxdl -16c3dd4 !87 【修改说明】进程级恢复重构需求合入基础数据类型以及common utils相关代码 * fix * fix * fix * submit base code -89b08b4 "patch" -ec48820 Merge remote-tracking branch 'origin/master' into log-fix -fcda9ae "add env for rescheduling" -879ad59 【修改说明】clusterd&master pod svc ip获取优化 -3380de4 Merge branch 'master' of https://gitee.com/ascend/mindxdl -00ac169 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -e3bf498 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -1a0e466 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -18ecab2 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -0871be3 judge job is uce -237ae8b refactor and pass test -cea9810 !80 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 -9755444 !79 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改检视意见 * 【修改说明】修改检视意见 * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】hwlog增加重复打印限制 * 【修改说明】dt * 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次 -d20a7a3 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -42c4ff9 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -61c7fde 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -99657c3 refactor -ada6c17 refactor -98c0583 delete test -ef2f60d Merge branch 'master' into uce -9c5d910 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -6328dce 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -4dc306f 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -c6cbc1e 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -d86fbe1 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -6959b2f micro refactor -450cde8 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -c609418 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -5cc9169 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -b6179fc 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -3ecc3c2 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -86a815c !74 【修改说明 Modification】减少clusterD中锁的粒度 * 降低所有锁的粒度,防止锁嵌套 -1d1ce9a Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl -932a8db log + job fault rank processor test -0f58d1f split device faults -90f0fc3 package refactor -94c4c34 informer+jobFaultRankList -ac2d319 !72 【ascend operator】支持configmap和共享文件同时存在 Merge pull request !72 from YangLei/cm_file -6bd5bef "patch" -cf4a1bb "patch" -8a2fd50 !73 【ascend operator】configmap增加version字段,用于热复位 * "timestamp as version" * "add version to configmap" -6333778 "patch" -c3a5b10 !69 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次 -64ac46d "patch" -ffbdb51 "timestamp as version" -b20c6d6 "patch" -f90c2d0 "add version to configmap" -5ce24fe "configmap and file both exist" -f4c581e !71 【Ascend operator】operator支持mindspore使用ranktable Merge pull request !71 from YangLei/master -6c166a9 Merge branch 'master' into uce -176d153 corrent time error -218aae0 "not use npu log" -9b03758 "mindspore ranktable 02" -e6f3a58 Merge branch 'master' of https://gitee.com/ascend/mindxdl -a471295 !55 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题 Merge pull request !55 from 李鸣沼/log-fix -64bbce7 !59 noded支持NPU MCE/AER故障上报 * 【修改说明】noded支持NPU MCE/AER故障上报 -c6f8fd7 uce accompany fault (aic aiv) processor, test pass -9176cdc 【修改说明】修复关键日志被截断问题 -2b525b6 mindio report callback only report jobid rankid; uce fault code=80E01801 -79d7636 !60 operator支持vcjob重调度 * "vcjob rescheduling" -a37967f "patch" -f074bdb "patch" -6c55524 "patch" -927db7e "rename import" -ff11b80 "patch" -1ca72fc "new file" -5501637 "patch" -b52345e "patch" -b5861d0 device plugin report fault time -32615f2 "patch" -7434c74 "patch" -19d8d76 "delete hccl.json" -9985d56 "patch" -121e188 "patch" -b226dba "check status" -3ef86fd second complete, test pass -e0bea3e "patch" -d8cdc06 "patch" -df3315c "patch" -a30d2c8 "vcjob rescheduling" -5daeaf2 !57 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod * 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod -31064f3 !53 hccl controller收编 * rkt for tensorFlow and MIndSpore -aea1992 !41 operator支持mindspore使用ranktable Merge pull request !41 from YangLei/master -17486e8 Merge branch 'master' of gitee.com:ascend/mindxdl into hostIp -0d7b6b0 Merge branch 'master' of gitee.com:ascend/mindxdl into hccl -69e9751 !32 展示最近的重调度记录 * 获取最近10条重调度记录 -faf93a9 !44 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 Merge pull request !44 from wangjun/master -b6fdada 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -e051c2b 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -18289e0 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -c5c66ce "fix codeCheck" -249498d "acjob save configmap" -798fac7 "patch" -b6ba244 "configmap key" -523deb9 "patch" -13d3e41 "const for get pod" -18ef494 !49 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片 * 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片 -676ff42 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题 -278dc87 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -4c73f52 !54 修改raedme及构建脚本 Merge pull request !54 from luxiang6/comm_repo -244c30f "decimal const" -f6f3c05 "add consts" -28d4024 "patch" -cacb9dc "patch" -5e0c92e "patch" -d618f16 "patch" -649dd57 "patch" -b38488e "patch" -a5f388c "write rank index patch" -28630bf "get rankIndex for deploy" -0933676 "decorate deployment" -5b31631 "ckeck replicas len" -e2c9aa4 "add clusterRole for deploy" -f7a8159 "watch deployment" -e807149 "patch" -d2188be "add interface ToString() " -3a04cc2 "ranktablepipeline" -b71d098 !52 【修改说明】修复重调度,误删mindspore的scheduler的pod * 【修改说明】修复重调度,误删mindspore的scheduler的pod -cdc4dd8 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -bdab850 readme&构建脚本修改 -2e2c094 "patch" -6ed0927 "patch" -303b837 first complete -7a3c89c "patch for vcjob config map" -3a3bb50 "add scheme fof vcjob and deploy" -890da10 "vcjob write configmap" -bf28f87 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -676e215 "bad import " -737cabd "backoff to master" -340d9d8 "merge hccl for vcjob with hccl.json mount" -034c862 "test branch" -92a972e !51 【修改说明】clusterd 适配x1平台volcano1.2 pgName不能由jobName+jobId拼凑的问题 * fix * fix * fix * fix * separate jobid pgid jobname pgname -49d57c4 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -bf1c634 "patch" -ad7931d !50 【修改说明】dp修复动态切分不上报卡故障 Merge pull request !50 from fengjianqing/master -0e215b8 【修改说明】dp修复动态切分不上报卡故障 -7075415 "not add pod without rkt" -46ec172 "rename const" -66f9d0c "func podUseNpu" -76f2c51 "operator for mindspore ranktable" -b6a5215 Merge branch 'master' of https://gitee.com/ascend/mindxdl -f9ea22a 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -20670e2 !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix * fix * fix -f1ed8f9 !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix -d54616d !48 【修改说明】npu-exporter 增加LargelimitListener功能 * fix code * fix * add large listener -3d7ed6d 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -54dca92 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -fb258d1 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6 -34c516e !39 【修改说明】clusterd 修复AI平台对接相关逻辑(stopComplete后再写confirmfault, 更新恢复结果annotation以实际选择的最后策略为准) * fix platform logic -37f6105 !40 【修改说明】clusterd限制支持节点数和作业个数,从而限制cmManager大小和bsWorker大小 Merge pull request !40 from tiankaijin/dts862 -e5e4282 !43 加固clusterd容器安全配置 Merge pull request !43 from weihaoran/clusterd_yaml -5fb9645 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 -dd70325 !45 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 * 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 -b68b3a6 !23 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户 -80c3784 !42 【修改说明】调整clusterd pod增删改时日志记录级别 * 【修改说明】刷屏日志调整 -11ac7c5 !33 dp最小级修复 * 最小集检测修复 -29f386a 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -ffd017b fix -d36fb00 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 -1ec752b 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 -c2f3419 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 -90451fe Revert "【修改说明】调整clsterd pod增删改时日志记录级别" -7037777 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 -ea04af4 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 -816d146 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 -cf377b1 fix -d05bc65 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 -4197792 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -e54e02d fix -ceb4668 【修改说明】加固clusterd容器安全配置 -211d0f7 fix -dd14c42 【修改说明】调整clsterd pod增删改时日志记录级别 -2b44d18 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 -60be355 !37 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 Merge pull request !37 from lirui238/seccomp-config -11f92f3 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 【修改人 Modifier】lirui238 【评审人 Reviewer】luxiang6 -1ef69b6 fix -d2d72a2 limit bsworker and cmManager length -e868818 rkt for tensorFlow and MIndSpore -6726f95 !36 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 Merge pull request !36 from Atlas_zxp/delete-x11 -68713dc !38 【修改说明】clusterd grpc支持限制qps Merge pull request !38 from tiankaijin/qps_limit -903da2f 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -c73824f fix -d22ff75 fix -66316bc fix -32efd82 fix -5c05ee0 !34 【修改说明】cluster grpc支持资源清理和注册校验 Merge pull request !34 from tiankaijin/clean_grpc_resource -7be3e1e 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -5023a52 fix -a45fb68 fix -7e8d55b !35 【修改说明】进程级回复增加等待调度时间 Merge pull request !35 from tiankaijin/wait_pg_running -b341094 fix -7e6e8ba !31 优化clusterd权限 Merge pull request !31 from weihaoran/clusterd_user -347dbca fix -633ebd4 fix -a7e99f6 !18 1520故障码映射同步修改 * 同步rc3修改 -e7d09de 【修改说明】优化clusterd权限 -b3fa1aa cleancode魔鬼数字修改 -fac229f !30 【修改说明】修复clusterd 全0监听问题 * fix zero listen -ca16ec6 cleancode -d9ca767 cleancode -5ebef89 !29 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token Merge pull request !29 from Atlas_zxp/delete-token -b2de16f 同步rc3修改 -1537f58 修改cleancode -21aeb40 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -2aa7824 !26 开启N秒快恢功能,单独发生80CB8009故障,故障不上报 Merge pull request !26 from zhoupan39/master -c4c7d6c !25 【修改说明】pytorch 优雅退出参数和 ms 保持一致 Merge pull request !25 from tiankaijin/tkj_volcano -b4ba48c !28 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题 * 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题 -513a62a !27 修改clusterd默认日志文件 Merge pull request !27 from weihaoran/clusterd_log -bd1d800 【修改说明】修改clusterd默认日志文件 -b5e31de 【修改说明】修改clusterd默认日志文件 -ed9bdfe !19 【修改说明 Modification】更新统一编译说明及build脚本 * update build -5fbec6e 保持pt和ms框架优雅退出参数名一致 -aaf6bc5 开启N秒快恢功能,单独发生8009故障,故障不上报 -d949dab !22 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED -89d2331 !21 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 -cc8fc2e !17 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 Merge pull request !17 from Atlas_zxp/master -2bb58fb !16 指标对齐 * 【修改说明】telegraf增加currentFreq、voltage采集、进程信息采集;修改promethus中errorCode上报方式… -31aeda9 !20 /var/queue_schedule添加白名单 Merge pull request !20 from YangLei/master -70b72d2 add /var/queue_schedule to whitelist -b3be6aa !14 修改clusterd默认用户 * 【修改说明】修改clusterd默认用户 -c44e28f !15 修复clusterd空指针解引用问题 Merge pull request !15 from weihaoran/clusterd_panic -b99ad79 新仓同步修改 -cb3cc9d !10 增加挂载路径适配HDK升级24.1.RC2 Merge pull request !10 from YangLei/master -12315f7 !11 【修改说明 Modification】volcano代码同步 * 【修改说明 Modification】volcano代码同步 -eb05dca !9 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时 * 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时 -cac43db !12 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 -88db0ce 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6 -7cd0929 !13 同步分支代码 Merge pull request !13 from luxiang6/sync_code -97ea507 【修改说明】修复空指针解引用问题 -b9b8e81 同步代码 -efd9df8 add mount path /var/queue_schedule -67c464e !8 【修改说明 Modification】clusterd更新readme及build Merge pull request !8 from chentian/master -891aca4 Merge branch 'master' of gitee.com:chentian007/mindxdl -f7fd266 update clusterd readme -c59600e update clusterd readme -e21cb07 update clusterd readme -64763b3 update clusterd build -2147533 !5 【修改说明 Modification】clusterd代码合并及统一构建出包build脚本 * add build_all.sh * 新增clusterd组件 -81e7ef3 fix codecheck -53dc253 update -ecbc82d add build -711c366 fix clusterd DT bug -a2e3d9c fix cleancode bug -1d19ddc fix cleancode bug -cfe591b add build -9b10496 add build -367e094 add build -7f6ee55 add build -90096d3 add build_all.sh -dde9e35 新增clusterd组件 -9445198 新增clusterd组件 -a2ee6e7 新增clusterd组件 -ed4978e 新增clusterd组件 -e57db23 新增clusterd组件 -47f496c 新增clusterd组件 -aa01a34 新增clusterd组件 -f88bd27 !4 代码仓归一+cleancode整改 Merge pull request !4 from luxiang6/cleancode -582a3c6 Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode -8aead81 update OWNERS. -5016570 cleancode修改 -7dddf8a cleancode修改 -3617bf5 cleancode修改 -e95fdbf cleancode修改 -2ca5b7c Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode -67918d2 update OWNERS. -3997739 cleancode修改 -cf27c77 cleancode修改 -149b8f9 Merge branch 'master' of gitee.com:ascend/mindxdl into master -a12accf add OWNERS. -4546883 代码仓归一 -a40d318 代码仓归一 -d894bbc 代码仓归一 -57f1d8e 代码仓归一 -3ed63d6 代码仓归一 -7dcd4fa 代码仓归一 -53101e6 代码仓归一 -4405b33 (tag: v6.0.0-RC2, tag: v6.0.0-RC1, tag: v5.0.1, tag: v5.0.0) Initial commit -- Gitee From cc317e790a28ce0f4b1a4fbd55c8d0361b9028b3 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Wed, 9 Apr 2025 10:00:31 +0800 Subject: [PATCH 04/14] =?UTF-8?q?=E6=B3=A8=E9=87=8A=E6=94=B9=E6=88=90?= =?UTF-8?q?=E8=8B=B1=E6=96=87?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- component/ascend-device-plugin/pkg/common/fault_code.go | 8 +++----- 1 file changed, 3 insertions(+), 5 deletions(-) diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go index 77d8550e6..8ea692705 100644 --- a/component/ascend-device-plugin/pkg/common/fault_code.go +++ b/component/ascend-device-plugin/pkg/common/fault_code.go @@ -124,7 +124,7 @@ var ( RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault) // NetworkFaultCodes is a set that contains all the network fault codes NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode) - faultTriggerChan = make(chan struct{}, 1) + faultTriggerChan = make(chan struct{}, 1) ) // fault customization @@ -1185,13 +1185,11 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) { devFaultInfoMapLock.Lock() devFaultInfoMap[devFaultInfo.LogicID] = append(devFaultInfoMap[devFaultInfo.LogicID], devFaultInfo) devFaultInfoMapLock.Unlock() - - // 触发故障处理 + select { case faultTriggerChan <- struct{}{}: hwlog.RunLog.Debug("Triggered fault processing") default: - // 如果通道已满,说明已经有故障在处理中 hwlog.RunLog.Debug("Fault processing is already in progress") } } @@ -1679,7 +1677,7 @@ func GetFrequencyFaultLevelAndCodes(mode string, logicId int32) map[int64]FaultT return result } -// GetFaultTriggerChan 获取故障触发通道 +// GetFaultTriggerChan get fault trigger chan func GetFaultTriggerChan() chan struct{} { return faultTriggerChan } -- Gitee From 47c13cf1f94ccbe00d63d202655d390ea068093c Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Wed, 9 Apr 2025 10:20:47 +0800 Subject: [PATCH 05/14] fix codecheck --- component/ascend-device-plugin/pkg/server/manager.go | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 65970d138..0fd9b28f8 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -28,7 +28,7 @@ import ( "github.com/containerd/containerd" "github.com/fsnotify/fsnotify" - v1 "k8s.io/api/core/v1" + "k8s.io/api/core/v1" "k8s.io/apimachinery/pkg/util/wait" "k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1" -- Gitee From c14e354c15086ddcec11c6a550b29cbf95a95851 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Fri, 11 Apr 2025 15:49:32 +0800 Subject: [PATCH 06/14] fix review --- .../ascend-device-plugin/pkg/common/fault_code.go | 12 +++++++++++- component/ascend-device-plugin/pkg/server/manager.go | 3 +-- .../pkg/reporter/cmreporter/configmap_reporter.go | 5 +++-- component/noded/pkg/reporter/reporter_manager.go | 2 +- 4 files changed, 16 insertions(+), 6 deletions(-) diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go index 8ea692705..9ae9b6316 100644 --- a/component/ascend-device-plugin/pkg/common/fault_code.go +++ b/component/ascend-device-plugin/pkg/common/fault_code.go @@ -82,6 +82,8 @@ const ( PollingInterval time.Duration = DefaultPollingInterval // SubHealthFault subHealth code SubHealthFault = "SubHealthFault" + // writeInterval is the interval time used in writing fault chan + writeInterval = time.Second ) var ( @@ -124,7 +126,10 @@ var ( RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault) // NetworkFaultCodes is a set that contains all the network fault codes NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode) - faultTriggerChan = make(chan struct{}, 1) + // faultTriggerChan is a channel to trigger device info update + faultTriggerChan = make(chan struct{}, 1) + // lastWriteTime previous write time + lastWriteTime time.Time ) // fault customization @@ -1186,8 +1191,13 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) { devFaultInfoMap[devFaultInfo.LogicID] = append(devFaultInfoMap[devFaultInfo.LogicID], devFaultInfo) devFaultInfoMapLock.Unlock() + if time.Since(lastWriteTime) < writeInterval { + hwlog.RunLog.Debug("It has been less than one second since the last processing. Skipping processing.") + return + } select { case faultTriggerChan <- struct{}{}: + lastWriteTime = time.Now() hwlog.RunLog.Debug("Triggered fault processing") default: hwlog.RunLog.Debug("Fault processing is already in progress") diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 0fd9b28f8..0401bb3bc 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -28,7 +28,7 @@ import ( "github.com/containerd/containerd" "github.com/fsnotify/fsnotify" - "k8s.io/api/core/v1" + v1 "k8s.io/api/core/v1" "k8s.io/apimachinery/pkg/util/wait" "k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1" @@ -442,7 +442,6 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) defer ticker.Stop() - // 使用全局故障触发通道 faultTrigger := common.GetFaultTriggerChan() for { diff --git a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go index 0bd4b4c08..ea9340d62 100644 --- a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go +++ b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go @@ -19,7 +19,7 @@ import ( "encoding/json" "time" - "k8s.io/api/core/v1" + v1 "k8s.io/api/core/v1" metav1 "k8s.io/apimachinery/pkg/apis/meta/v1" "ascend-common/api" @@ -48,7 +48,8 @@ func NewConfigMapReporter(client *kubeclient.ClientK8s) *ConfigMapReporter { // Report send fault device info by config map func (c *ConfigMapReporter) Report(faultDevInfo *common.FaultDevInfo) { - if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) { + if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) && + time.Since(c.reportTime) < defaultReportInterval { hwlog.RunLog.Debugf("node fault device info is not changed and report time is not reached, no need to report") return } diff --git a/component/noded/pkg/reporter/reporter_manager.go b/component/noded/pkg/reporter/reporter_manager.go index d088314d3..f1de7892c 100644 --- a/component/noded/pkg/reporter/reporter_manager.go +++ b/component/noded/pkg/reporter/reporter_manager.go @@ -62,7 +62,7 @@ func (r *ReportManager) Init() error { func (r *ReportManager) Execute(faultDevInfo *common.FaultDevInfo) { r.faultManager.SetFaultDevInfo(faultDevInfo) for _, reporter := range r.reporters { - reporter.Report(faultDevInfo) + go reporter.Report(faultDevInfo) } } -- Gitee From e618f8c44b4b769c6c364d6f79b7f66bb8f4e1e8 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Fri, 11 Apr 2025 15:50:48 +0800 Subject: [PATCH 07/14] codec --- component/ascend-device-plugin/pkg/server/manager.go | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 0401bb3bc..067bf75f2 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -28,7 +28,7 @@ import ( "github.com/containerd/containerd" "github.com/fsnotify/fsnotify" - v1 "k8s.io/api/core/v1" + "k8s.io/api/core/v1" "k8s.io/apimachinery/pkg/util/wait" "k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1" -- Gitee From 94f7794695674b835e6925d26774a4321f990f56 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Fri, 11 Apr 2025 16:27:29 +0800 Subject: [PATCH 08/14] revert clusterd --- component/clusterd/pkg/common/constant/constants.go | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/component/clusterd/pkg/common/constant/constants.go b/component/clusterd/pkg/common/constant/constants.go index 971421367..87b49693f 100644 --- a/component/clusterd/pkg/common/constant/constants.go +++ b/component/clusterd/pkg/common/constant/constants.go @@ -80,7 +80,7 @@ const ( JobReportRecoverTimeout = 10 * 1000 JobReportInfoExpiredTimeout = 10 * 1000 JobReportCompleteTimeout = 30 * 1000 - FaultCenterProcessPeriod = 1 * 1000 + FaultCenterProcessPeriod = 3 * 1000 MaxFaultCenterSubscriber = 10 UnknownFaultTime = -1 ) -- Gitee From d7c3ac69b13384ef4e095820442e1f086e68b3e7 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Mon, 14 Apr 2025 10:01:56 +0800 Subject: [PATCH 09/14] dp debug --- .../pkg/server/fault_constructor.go | 337 ++++++++++++++++++ .../pkg/server/fault_writer.py | 55 +++ .../pkg/server/manager.go | 3 + 3 files changed, 395 insertions(+) create mode 100644 component/ascend-device-plugin/pkg/server/fault_constructor.go create mode 100644 component/ascend-device-plugin/pkg/server/fault_writer.py diff --git a/component/ascend-device-plugin/pkg/server/fault_constructor.go b/component/ascend-device-plugin/pkg/server/fault_constructor.go new file mode 100644 index 000000000..df03dcc7e --- /dev/null +++ b/component/ascend-device-plugin/pkg/server/fault_constructor.go @@ -0,0 +1,337 @@ +/* Copyright(C) 2024. Huawei Technologies Co.,Ltd. All rights reserved. + Licensed under the Apache License, Version 2.0 (the "License"); + you may not use this file except in compliance with the License. + You may obtain a copy of the License at + + http://www.apache.org/licenses/LICENSE-2.0 + + Unless required by applicable law or agreed to in writing, software + distributed under the License is distributed on an "AS IS" BASIS, + WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. + See the License for the specific language governing permissions and + limitations under the License. +*/ + +// Package server holds the implementation of registration to kubelet, k8s pod resource interface. +package server + +import ( + "context" + "encoding/json" + "errors" + "fmt" + "os" + "path/filepath" + "strconv" + "strings" + "sync" + "time" + + "k8s.io/api/core/v1" + + "Ascend-device-plugin/pkg/common" + "Ascend-device-plugin/pkg/kubeclient" + "ascend-common/common-utils/hwlog" + "ascend-common/common-utils/utils" + npuCommon "ascend-common/devmanager/common" +) + +const ( + // FaultEventCMName name of npu fault event configmap + FaultEventCMName = "mindx-dl-npu-fault-event" + // FaultEventCMNameSpace namespace of npu fault event configmap + FaultEventCMNameSpace = "kube-system" + // FaultEventFileKey key of loading npu faults + FaultEventFileKey = "npuFaultCM.json" + // FaultEventCMPollSecInterval interval of polling npu fault event configmap, unit:second + FaultEventCMPollSecInterval = 1 + // FaultCacheSaveToDPMillInterval interval of saving cached npu fault to DP, unit:millisecond + FaultCacheSaveToDPMillInterval = 500 + // ReInjectAllFaultsDefaultValue default value of re-injecting all faults in configmap + ReInjectAllFaultsDefaultValue = 1 + // FaultEventFileAbsPath file absolute path of injecting fault event with file + FaultEventFileAbsPath = "/user/inject/fault/npuFaultFile.json" +) + +var ( + // faultCacheLock is used for devFaultCache which may be used concurrence + faultCacheLock sync.Mutex + devFaultCache []npuCommon.DevFaultInfo +) + +type FaultInfo struct { + EventID string + LogicID int32 + Severity int8 + Assertion int8 + TimeOffset []int64 +} + +type FaultDebugConfig struct { + Node string // When injecting faults through local files, this field does not work + PollInterval int64 + ReInject int + Faults []FaultInfo +} + +func (hdm *HwDevManager) constructNpuFaultByCm(ctx context.Context) { + hwlog.RunLog.Infof("start construct npu fault from cm or file") + if err := hdm.createFaultFile(); err != nil { + hwlog.RunLog.Errorf("create fault file fail, err: %v", err) + } else { + go hdm.loadFaultEventFromFile(ctx) + } + go hdm.pollFaultEventFromCm(ctx) + go hdm.saveCachedFaultToDP(ctx) +} + +func (hdm *HwDevManager) createFaultFile() error { + dir := filepath.Dir(FaultEventFileAbsPath) + if !utils.IsExist(dir) { + if err := os.MkdirAll(dir, os.ModePerm); err != nil { + return fmt.Errorf("mkdir fail, err: %v", err) + } + } + defaultConfig := &FaultDebugConfig{ + PollInterval: FaultEventCMPollSecInterval, + ReInject: 0, + } + return hdm.updateFaultInjectFile(defaultConfig) +} + +func (hdm *HwDevManager) loadFaultEventFromFile(ctx context.Context) { + for { + select { + case _, ok := <-ctx.Done(): + if !ok { + hwlog.RunLog.Info("stop signal channel closed") + } + hwlog.RunLog.Info("load fault event from file stop") + return + default: + interval := int64(FaultEventCMPollSecInterval) + config := hdm.readAndInjectFaultFromFile() + if config != nil && config.PollInterval > 0 { + interval = config.PollInterval + } + time.Sleep(time.Duration(interval) * time.Second) + } + } +} + +func (hdm *HwDevManager) pollFaultEventFromCm(ctx context.Context) { + for { + select { + case _, ok := <-ctx.Done(): + if !ok { + hwlog.RunLog.Info("stop signal channel closed") + } + hwlog.RunLog.Info("poll fault event from cm stop") + return + default: + interval := int64(FaultEventCMPollSecInterval) + config := hdm.pollAndInjectFaultFromCm() + if config != nil && config.PollInterval > 0 { + interval = config.PollInterval + } + time.Sleep(time.Duration(interval) * time.Second) + } + } +} + +func (hdm *HwDevManager) saveCachedFaultToDP(ctx context.Context) { + for { + select { + case _, ok := <-ctx.Done(): + if !ok { + hwlog.RunLog.Info("stop signal channel closed") + } + hwlog.RunLog.Info("save cached fault to dp stop") + return + default: + hdm.injectDevFaultToDp() + time.Sleep(time.Duration(FaultCacheSaveToDPMillInterval) * time.Millisecond) + } + } +} + +func (hdm *HwDevManager) readAndInjectFaultFromFile() *FaultDebugConfig { + config, err := readFaultDebugFileJson() + if err != nil { + hwlog.RunLog.ErrorfWithLimit(FaultEventFileAbsPath, 1, "cannot load fault from '%s' file, reason: %v", FaultEventFileAbsPath, err) + return nil + } + if config.ReInject != ReInjectAllFaultsDefaultValue { + return config + } + + hwlog.RunLog.Infof("ReInject value is '%d' in file, start saving to DP", config.ReInject) + // reset devFaultCache + hdm.updateDevFaultCache(config.Faults) + config.ReInject = 0 + + hdm.updateFaultInjectFile(config) + return config +} + +func (hdm *HwDevManager) pollAndInjectFaultFromCm() *FaultDebugConfig { + + configMap, err := hdm.manager.GetKubeClient().GetConfigMap(FaultEventCMName, FaultEventCMNameSpace) + if err != nil { + hwlog.RunLog.ErrorfWithLimit(FaultEventCMName, 2, "cannot find '%s' configmap, reason: %v", FaultEventCMName, err) + return nil + } + + config, err := parseFaultDebugConfigJson(configMap) + if err != nil || config == nil { + hwlog.RunLog.Error(err) + return nil + } + + if config.ReInject != ReInjectAllFaultsDefaultValue { + return config + } + hwlog.RunLog.Infof("ReInject value is '%d' in CM, start saving to DP", config.ReInject) + + node, err := kubeclient.GetNodeNameFromEnv() + if err != nil || node == "" { + hwlog.RunLog.Errorf("cannot get node from env, reason: %v", err) + return config + } + + if node != config.Node { + hwlog.RunLog.Infof("dont have node '%s' in configmap, target nodes: %s", node, config.Node) + return config + } + + // reset devFaultCache + hdm.updateDevFaultCache(config.Faults) + config.ReInject = 0 + + hdm.updateConfigMap(config, configMap) + + return config +} + +func (hdm *HwDevManager) updateDevFaultCache(faultInfos []FaultInfo) { + tempDevFaultCache := make([]npuCommon.DevFaultInfo, 0) + now := time.Now() + + // save npu device fault + for _, fault := range faultInfos { + eventId, err := convertFaultCodeHexToInt(fault.EventID) + if err != nil { + hwlog.RunLog.Errorf("get fault code fail, reason: %v", err) + continue + } + if len(fault.TimeOffset) == 0 { + fault.TimeOffset = append(fault.TimeOffset, 0) + } + for _, offset := range fault.TimeOffset { + rasedTime := now.Add(time.Duration(offset) * time.Second) + + devFault := npuCommon.DevFaultInfo{ + EventID: eventId, + LogicID: fault.LogicID, + Severity: fault.Severity, + Assertion: fault.Assertion, + AlarmRaisedTime: rasedTime.UnixMilli(), + } + tempDevFaultCache = append(tempDevFaultCache, devFault) + hwlog.RunLog.Infof("add npu fault to dp cache, devFaultInfo: %v, hex code: %v", + devFault, strconv.FormatInt(devFault.EventID, common.Hex)) + } + } + + faultCacheLock.Lock() + hwlog.RunLog.Infof("update cache fault data finished, pre fault cnt: %d, latest fault count: %d", + len(devFaultCache), len(tempDevFaultCache)) + devFaultCache = tempDevFaultCache + faultCacheLock.Unlock() +} + +func (hdm *HwDevManager) injectDevFaultToDp() { + faultCacheLock.Lock() + defer faultCacheLock.Unlock() + + nowTime := time.Now().UnixMilli() + newDevFaultCache := make([]npuCommon.DevFaultInfo, 0) + for _, devFault := range devFaultCache { + if nowTime >= devFault.AlarmRaisedTime { + common.SaveDevFaultInfo(devFault) + continue + } + newDevFaultCache = append(newDevFaultCache, devFault) + } + devFaultCache = newDevFaultCache +} + +func (hdm *HwDevManager) updateConfigMap(config *FaultDebugConfig, configMap *v1.ConfigMap) { + configBytes, err := json.Marshal(*config) + if err != nil { + hwlog.RunLog.Errorf("marshal FaultDebugConfig fail, data: %v reason: %v", config, err) + return + } + configMap.Data[FaultEventFileKey] = string(configBytes) + _, err = hdm.manager.GetKubeClient().UpdateConfigMap(configMap) + if err != nil { + hwlog.RunLog.Errorf("update '%s' configmap fail, reason: %v", FaultEventCMName, err) + } +} + +func (hdm *HwDevManager) updateFaultInjectFile(config *FaultDebugConfig) error { + configBytes, err := json.Marshal(*config) + if err != nil { + hwlog.RunLog.Errorf("marshal FaultDebugConfig fail, data: %v err: %v", config, err) + return fmt.Errorf("marshal FaultDebugConfig fail, data: %v err: %v", config, err) + } + f, err := os.OpenFile(FaultEventFileAbsPath, os.O_WRONLY|os.O_CREATE|os.O_TRUNC, os.ModePerm) + if err != nil { + hwlog.RunLog.Errorf("open fault file failed, reason: %v", err) + return fmt.Errorf("open fault file failed, reason: %v", err) + } + defer f.Close() + if _, err = f.WriteString(string(configBytes)); err != nil { + hwlog.RunLog.Errorf("write fault file failed, reason: %v", err) + return fmt.Errorf("write fault file failed, reason: %v", err) + } + return nil +} + +func parseFaultDebugConfigJson(configMap *v1.ConfigMap) (*FaultDebugConfig, error) { + jsonStr, ok := configMap.Data[FaultEventFileKey] + if !ok { + return nil, fmt.Errorf("cannot find data '%s' in CM'", FaultEventFileKey) + } + return convertByteToFaultDebugConfig([]byte(jsonStr)) +} + +func readFaultDebugFileJson() (*FaultDebugConfig, error) { + faultCodeBytes, err := utils.LoadFile(FaultEventFileAbsPath) + if err != nil { + return nil, fmt.Errorf("load fault event json file failed, path: %v, reason: %v", FaultEventFileAbsPath, err) + } + if faultCodeBytes == nil { + return nil, errors.New("the file does not exist or for other reasons, the read data is empty") + } + return convertByteToFaultDebugConfig(faultCodeBytes) +} + +func convertByteToFaultDebugConfig(bytes []byte) (*FaultDebugConfig, error) { + configInfo := &FaultDebugConfig{ + PollInterval: FaultEventCMPollSecInterval, + } + if err := json.Unmarshal(bytes, configInfo); err != nil { + return nil, fmt.Errorf("cannot unmarshal json data, data: %s, reason: %v", string(bytes), err) + } + return configInfo, nil +} + +func convertFaultCodeHexToInt(hexStr string) (int64, error) { + hexStr = strings.TrimPrefix(hexStr, "0x") + codes := common.StringTool.HexStringToInt([]string{hexStr}) + if len(codes) == 0 { + return -1, fmt.Errorf("convert fault code hex string '%s' to int failed", hexStr) + } + return codes[0], nil +} diff --git a/component/ascend-device-plugin/pkg/server/fault_writer.py b/component/ascend-device-plugin/pkg/server/fault_writer.py new file mode 100644 index 000000000..fc5592f62 --- /dev/null +++ b/component/ascend-device-plugin/pkg/server/fault_writer.py @@ -0,0 +1,55 @@ +import os +import json + +class FaultInfo: + def __init__(self, EventID=None, LogicID=None, Severity=None, Assertion=None, TimeOffset=None): + self.EventID = EventID + self.LogicID = LogicID + self.Severity = Severity + self.Assertion = Assertion + self.TimeOffset = TimeOffset + def to_dict(self): + return { + 'EventID': self.EventID, + 'LogicID': self.LogicID, + 'Severity': self.Severity, + 'Assertion': self.Assertion, + 'TimeOffset': self.TimeOffset + } + +class FaultDebugConfig: + def __init__(self, Node=None, PollInterval=None, ReInject=None, Faults=None): + self.Node = Node + self.PollInterval = PollInterval + self.ReInject = ReInject + self.Faults = Faults + +def create_and_write_json_file(): + file_path = "/user/inject/fault/npuFaultFile.json" + Faults=[ + FaultInfo( + EventID="0x80E21007", + LogicID=1, + Severity=0, + Assertion=1, + TimeOffset=[0, 6] + ), + FaultInfo( + EventID="0x80E21007", + LogicID=1, + Severity=0, + Assertion=0, + TimeOffset=[12] + ) + ] + + json_data = FaultDebugConfig( + Node="XXX", + PollInterval=1, + ReInject=1, + Faults=[fault.to_dict() for fault in Faults] + ) + with open(file_path, 'w') as f: + json.dump(json_data.__dict__, f, indent=4) + +# create_and_write_json_file() \ No newline at end of file diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 067bf75f2..3154f2808 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -434,6 +434,9 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { hdm.separateNPUIDFromDeviceInfoIntoCache() go hdm.pollFaultCodeCM(ctx) go hdm.Serve(ctx) + + hdm.constructNpuFaultByCm(ctx) + if common.ParamOption.CheckCachedPods { go hdm.manager.GetKubeClient().PodInformerInspector(ctx) } -- Gitee From 7a98f6d89f6eefaec85bb3357b8441b41cb4870e Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Mon, 14 Apr 2025 17:01:39 +0800 Subject: [PATCH 10/14] =?UTF-8?q?=E3=80=90ascend=20device=20plugin?= =?UTF-8?q?=E3=80=91pod=E5=88=9B=E5=BB=BA=E3=80=81=E6=9B=B4=E6=96=B0?= =?UTF-8?q?=E3=80=81=E5=88=A0=E9=99=A4=E6=97=B6=E8=A7=A6=E5=8F=91dp?= =?UTF-8?q?=E4=B8=BB=E6=B5=81=E7=A8=8B?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../ascend-device-plugin/pkg/common/common.go | 2 + .../pkg/common/fault_code.go | 10 +-- .../pkg/kubeclient/pod_informer.go | 67 +++++++++++++++++++ 3 files changed, 71 insertions(+), 8 deletions(-) create mode 100644 component/ascend-device-plugin/pkg/kubeclient/pod_informer.go diff --git a/component/ascend-device-plugin/pkg/common/common.go b/component/ascend-device-plugin/pkg/common/common.go index 2af5770f5..02e02760c 100644 --- a/component/ascend-device-plugin/pkg/common/common.go +++ b/component/ascend-device-plugin/pkg/common/common.go @@ -52,6 +52,8 @@ var ( "ascend310": regexp.MustCompile(`^Ascend310-\d+`), "ascend310P": regexp.MustCompile(`^Ascend310P-\d+`), } + // UpdateTriggerChan is a channel to trigger device info update + UpdateTriggerChan = make(chan struct{}, 1) ) // ServerInfo used for pass parameters diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go index 9ae9b6316..5eb8aa585 100644 --- a/component/ascend-device-plugin/pkg/common/fault_code.go +++ b/component/ascend-device-plugin/pkg/common/fault_code.go @@ -126,8 +126,6 @@ var ( RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault) // NetworkFaultCodes is a set that contains all the network fault codes NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode) - // faultTriggerChan is a channel to trigger device info update - faultTriggerChan = make(chan struct{}, 1) // lastWriteTime previous write time lastWriteTime time.Time ) @@ -1195,8 +1193,9 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) { hwlog.RunLog.Debug("It has been less than one second since the last processing. Skipping processing.") return } + select { - case faultTriggerChan <- struct{}{}: + case UpdateTriggerChan <- struct{}{}: lastWriteTime = time.Now() hwlog.RunLog.Debug("Triggered fault processing") default: @@ -1686,8 +1685,3 @@ func GetFrequencyFaultLevelAndCodes(mode string, logicId int32) map[int64]FaultT } return result } - -// GetFaultTriggerChan get fault trigger chan -func GetFaultTriggerChan() chan struct{} { - return faultTriggerChan -} diff --git a/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go new file mode 100644 index 000000000..d55edcbde --- /dev/null +++ b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go @@ -0,0 +1,67 @@ +package kubeclient + +import ( + "context" + "time" + + "k8s.io/api/core/v1" + "k8s.io/apimachinery/pkg/fields" + "k8s.io/client-go/tools/cache" + + "Ascend-device-plugin/pkg/common" + "ascend-common/common-utils/hwlog" +) + +// StartPodCreationWatcher starts watching Pod creation events on this node +func (ki *ClientK8s) StartPodCreationWatcher(nodeName string) { + // Create Pod ListWatch object, only watching Pods on this node + listWatch := cache.NewListWatchFromClient(ki.Clientset.CoreV1().RESTClient(), "pods", v1.NamespaceAll, + fields.OneTermEqualSelector("spec.nodeName", nodeName)) + + // Define event handler functions + _, controller := cache.NewInformer( + listWatch, + &v1.Pod{}, + time.Minute*1, + cache.ResourceEventHandlerFuncs{ + AddFunc: func(obj interface{}) { + pod := obj.(*v1.Pod) + hwlog.RunLog.Infof("New Pod created on node %s: %s", nodeName, pod.Name) + triggerUpdate() + }, + UpdateFunc: func(oldObj, newObj interface{}) { + oldPod := oldObj.(*v1.Pod) + newPod := newObj.(*v1.Pod) + hwlog.RunLog.Infof("Pod updated on node %s: %s (old phase: %s, new phase: %s)", + nodeName, newPod.Name, oldPod.Status.Phase, newPod.Status.Phase) + triggerUpdate() + }, + DeleteFunc: func(obj interface{}) { + pod := obj.(*v1.Pod) + hwlog.RunLog.Infof("Pod deleted from node %s: %s", nodeName, pod.Name) + triggerUpdate() + }, + }, + ) + + // Start the controller + stopCh := context.Background().Done() + go controller.Run(stopCh) + + // Wait for controller to sync + if !cache.WaitForCacheSync(stopCh, controller.HasSynced) { + hwlog.RunLog.Info("Timed out waiting for caches to sync") + return + } + + hwlog.RunLog.Info("Pod creation watcher started") +} + +func triggerUpdate() { + select { + case common.UpdateTriggerChan <- struct{}{}: + hwlog.RunLog.Debug("Triggered fault processing") + default: + hwlog.RunLog.Debug("Fault processing is already in progress") + } +} -- Gitee From 8acf7969e9d4f9a87014dab1690fd2c735b816d2 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Mon, 14 Apr 2025 17:12:16 +0800 Subject: [PATCH 11/14] fix ci --- component/ascend-device-plugin/pkg/server/manager.go | 4 +--- 1 file changed, 1 insertion(+), 3 deletions(-) diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 3154f2808..37f3214e7 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -445,8 +445,6 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) defer ticker.Stop() - faultTrigger := common.GetFaultTriggerChan() - for { select { case _, ok := <-ctx.Done(): @@ -455,7 +453,7 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { } hwlog.RunLog.Info("listen device stop") return - case <-faultTrigger: + case <-common.UpdateTriggerChan: hwlog.RunLog.Info("Received fault trigger, processing device info update") hdm.handleDeviceInfoUpdate(&initTime) case <-ticker.C: -- Gitee From 8ea54dfa317a3fa1af8159929e87b91d14790bfc Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Mon, 14 Apr 2025 17:13:03 +0800 Subject: [PATCH 12/14] fix ci --- component/ascend-device-plugin/pkg/server/manager.go | 4 +--- 1 file changed, 1 insertion(+), 3 deletions(-) diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 067bf75f2..2556e72c3 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -442,8 +442,6 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) defer ticker.Stop() - faultTrigger := common.GetFaultTriggerChan() - for { select { case _, ok := <-ctx.Done(): @@ -452,7 +450,7 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { } hwlog.RunLog.Info("listen device stop") return - case <-faultTrigger: + case <-common.UpdateTriggerChan: hwlog.RunLog.Info("Received fault trigger, processing device info update") hdm.handleDeviceInfoUpdate(&initTime) case <-ticker.C: -- Gitee From 5b7345c790a45ce31a86d4a1382cffb6c7574cf2 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Tue, 15 Apr 2025 09:43:13 +0800 Subject: [PATCH 13/14] =?UTF-8?q?=E5=A2=9E=E5=8A=A0pod=E4=BA=8B=E4=BB=B6?= =?UTF-8?q?=E7=9B=91=E5=90=AC?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../pkg/kubeclient/pod_informer.go | 10 +++++----- component/ascend-device-plugin/pkg/server/manager.go | 6 ++++++ 2 files changed, 11 insertions(+), 5 deletions(-) diff --git a/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go index d55edcbde..049be2802 100644 --- a/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go +++ b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go @@ -13,10 +13,10 @@ import ( ) // StartPodCreationWatcher starts watching Pod creation events on this node -func (ki *ClientK8s) StartPodCreationWatcher(nodeName string) { +func (ki *ClientK8s) StartPodCreationWatcher() { // Create Pod ListWatch object, only watching Pods on this node listWatch := cache.NewListWatchFromClient(ki.Clientset.CoreV1().RESTClient(), "pods", v1.NamespaceAll, - fields.OneTermEqualSelector("spec.nodeName", nodeName)) + fields.OneTermEqualSelector("spec.nodeName", ki.NodeName)) // Define event handler functions _, controller := cache.NewInformer( @@ -26,19 +26,19 @@ func (ki *ClientK8s) StartPodCreationWatcher(nodeName string) { cache.ResourceEventHandlerFuncs{ AddFunc: func(obj interface{}) { pod := obj.(*v1.Pod) - hwlog.RunLog.Infof("New Pod created on node %s: %s", nodeName, pod.Name) + hwlog.RunLog.Infof("New Pod created on node %s: %s", ki.NodeName, pod.Name) triggerUpdate() }, UpdateFunc: func(oldObj, newObj interface{}) { oldPod := oldObj.(*v1.Pod) newPod := newObj.(*v1.Pod) hwlog.RunLog.Infof("Pod updated on node %s: %s (old phase: %s, new phase: %s)", - nodeName, newPod.Name, oldPod.Status.Phase, newPod.Status.Phase) + ki.NodeName, newPod.Name, oldPod.Status.Phase, newPod.Status.Phase) triggerUpdate() }, DeleteFunc: func(obj interface{}) { pod := obj.(*v1.Pod) - hwlog.RunLog.Infof("Pod deleted from node %s: %s", nodeName, pod.Name) + hwlog.RunLog.Infof("Pod deleted from node %s: %s", ki.NodeName, pod.Name) triggerUpdate() }, }, diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 2556e72c3..5ccfe0eb8 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -438,6 +438,12 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { go hdm.manager.GetKubeClient().PodInformerInspector(ctx) } + if client := hdm.manager.GetKubeClient(); client != nil { + client.StartPodCreationWatcher() + } else { + hwlog.RunLog.Errorf("kube client is nil") + } + initTime := time.Now() ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) defer ticker.Stop() -- Gitee From adaf90de1fff30b23b9c416d14c995c2d4a43886 Mon Sep 17 00:00:00 2001 From: Yanng Lei <2776206243@qq.com> Date: Tue, 15 Apr 2025 10:41:01 +0800 Subject: [PATCH 14/14] =?UTF-8?q?=E3=80=90ascend=20device=20plugin?= =?UTF-8?q?=E3=80=91=E4=B8=80=E7=A7=92=E6=B6=88=E8=B4=B9=E4=B8=80=E6=AC=A1?= =?UTF-8?q?=E4=BF=A1=E5=8F=B7?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- component/ascend-device-plugin/main.go | 4 ++-- .../pkg/server/manager.go | 19 +++++++++++++++---- 2 files changed, 17 insertions(+), 6 deletions(-) diff --git a/component/ascend-device-plugin/main.go b/component/ascend-device-plugin/main.go index 84daea3f4..1f190ada5 100644 --- a/component/ascend-device-plugin/main.go +++ b/component/ascend-device-plugin/main.go @@ -33,7 +33,7 @@ const ( defaultLogPath = "/var/log/mindx-dl/devicePlugin/devicePlugin.log" // defaultListWatchPeriod is the default listening device state's period - defaultListWatchPeriod = 5 + defaultListWatchPeriod = 60 // maxListWatchPeriod is the max listening device state's period maxListWatchPeriod = 60 @@ -59,7 +59,7 @@ var ( edgeLogFile = flag.String("edgeLogFile", "/var/alog/AtlasEdge_log/devicePlugin.log", "Log file path in edge scene") listWatchPeriod = flag.Int("listWatchPeriod", defaultListWatchPeriod, - "Listen and watch device state's period, unit second, range [3, 60]") + "Listen and watch device state's period, unit second, range [3, 1800]") autoStowing = flag.Bool("autoStowing", true, "Whether to automatically stow the fixed device") logLevel = flag.Int("logLevel", 0, "Log level, -1-debug, 0-info, 1-warning, 2-error, 3-critical(default 0)") diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go index 5ccfe0eb8..232f01966 100644 --- a/component/ascend-device-plugin/pkg/server/manager.go +++ b/component/ascend-device-plugin/pkg/server/manager.go @@ -28,7 +28,7 @@ import ( "github.com/containerd/containerd" "github.com/fsnotify/fsnotify" - "k8s.io/api/core/v1" + v1 "k8s.io/api/core/v1" "k8s.io/apimachinery/pkg/util/wait" "k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1" @@ -447,6 +447,8 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { initTime := time.Now() ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second) defer ticker.Stop() + triggerTicker := time.NewTicker(time.Second) + defer triggerTicker.Stop() for { select { @@ -456,9 +458,8 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { } hwlog.RunLog.Info("listen device stop") return - case <-common.UpdateTriggerChan: - hwlog.RunLog.Info("Received fault trigger, processing device info update") - hdm.handleDeviceInfoUpdate(&initTime) + case <-triggerTicker.C: // 每秒触发一次 + hdm.parseTriggers(initTime) case <-ticker.C: hwlog.RunLog.Debug("Periodic device info update") hdm.handleDeviceInfoUpdate(&initTime) @@ -466,6 +467,16 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) { } } +func (hdm *HwDevManager) parseTriggers(initTime time.Time) { + select { + case <-common.UpdateTriggerChan: + hwlog.RunLog.Info("Received fault trigger, processing device info update") + hdm.handleDeviceInfoUpdate(&initTime) + default: + hwlog.RunLog.Debug("No fault trigger, skipping device info update") + } +} + func deepCopyGroupDevice(groupDevice map[string][]*common.NpuDevice) map[string][]*common.NpuDevice { newGroupDevice := make(map[string][]*common.NpuDevice, len(groupDevice)) for deviceType, npuDevices := range groupDevice { -- Gitee