From f4f2a5ce98edf1fb3f885980a058ef4644bcb6fb Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Mon, 7 Apr 2025 15:51:47 +0800
Subject: [PATCH 01/14] =?UTF-8?q?=E8=BF=AD=E4=BB=A3=E4=B8=80=E9=9C=80?=
=?UTF-8?q?=E6=B1=82-dp=E7=9B=B8=E5=85=B3?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
.idea/mind-cluster-latest.iml | 4 +
.idea/vcs.xml | 6 +
.idea/workspace.xml | 124 ++
.../pkg/common/fault_code.go | 15 +
.../pkg/server/manager.go | 69 +-
q | 1069 +++++++++++++++++
6 files changed, 1264 insertions(+), 23 deletions(-)
create mode 100644 .idea/mind-cluster-latest.iml
create mode 100644 .idea/vcs.xml
create mode 100644 .idea/workspace.xml
create mode 100644 q
diff --git a/.idea/mind-cluster-latest.iml b/.idea/mind-cluster-latest.iml
new file mode 100644
index 000000000..7ee078df7
--- /dev/null
+++ b/.idea/mind-cluster-latest.iml
@@ -0,0 +1,4 @@
+
+
+
+
\ No newline at end of file
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
new file mode 100644
index 000000000..35eb1ddfb
--- /dev/null
+++ b/.idea/vcs.xml
@@ -0,0 +1,6 @@
+
+
+
+
+
+
\ No newline at end of file
diff --git a/.idea/workspace.xml b/.idea/workspace.xml
new file mode 100644
index 000000000..6abc2affa
--- /dev/null
+++ b/.idea/workspace.xml
@@ -0,0 +1,124 @@
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ {
+ "associatedIndex": 1
+}
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+ true
+
+
\ No newline at end of file
diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go
index d2a8463d1..77d8550e6 100644
--- a/component/ascend-device-plugin/pkg/common/fault_code.go
+++ b/component/ascend-device-plugin/pkg/common/fault_code.go
@@ -124,6 +124,7 @@ var (
RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault)
// NetworkFaultCodes is a set that contains all the network fault codes
NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode)
+ faultTriggerChan = make(chan struct{}, 1)
)
// fault customization
@@ -1184,6 +1185,15 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) {
devFaultInfoMapLock.Lock()
devFaultInfoMap[devFaultInfo.LogicID] = append(devFaultInfoMap[devFaultInfo.LogicID], devFaultInfo)
devFaultInfoMapLock.Unlock()
+
+ // 触发故障处理
+ select {
+ case faultTriggerChan <- struct{}{}:
+ hwlog.RunLog.Debug("Triggered fault processing")
+ default:
+ // 如果通道已满,说明已经有故障在处理中
+ hwlog.RunLog.Debug("Fault processing is already in progress")
+ }
}
// GetAndCleanFaultInfo get device fault info and clean cache
@@ -1668,3 +1678,8 @@ func GetFrequencyFaultLevelAndCodes(mode string, logicId int32) map[int64]FaultT
}
return result
}
+
+// GetFaultTriggerChan 获取故障触发通道
+func GetFaultTriggerChan() chan struct{} {
+ return faultTriggerChan
+}
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index e07eccd59..90d84403b 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -398,6 +398,29 @@ func (hdm *HwDevManager) separateNPUIDFromDeviceInfoIntoCache() {
}
}
+func (hdm *HwDevManager) handleDeviceInfoUpdate(initTime *time.Time) {
+ common.LockAllDeviceInfo()
+ defer common.UnlockAllDeviceInfo()
+
+ if err := hdm.updateAllInfo(); err != nil {
+ hwlog.RunLog.Error(err)
+ return
+ }
+
+ // complete the fault codes that cannot be reported by the event subscribe interface
+ hdm.mendSubscribeFaultEvents()
+ hdm.updateDeviceUsedInfo(hdm.groupDevice)
+ hdm.notifyToK8s(initTime)
+
+ // if node annotation has reset fail devices but all devices are healthy, clear node annotation
+ hdm.checkNodeResetInfo()
+ hdm.useVolcanoNotify()
+ hdm.chipHotReset()
+ common.DelOnceRecoverFault(hdm.groupDevice)
+ common.DelOnceFrequencyFault()
+ common.Synchronize = true
+}
+
// ListenDevice ListenDevice coroutine
func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
hwlog.RunLog.Info("starting the listen device")
@@ -414,7 +437,27 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
if common.ParamOption.CheckCachedPods {
go hdm.manager.GetKubeClient().PodInformerInspector(ctx)
}
+
initTime := time.Now()
+ ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
+ defer ticker.Stop()
+
+ // 使用全局故障触发通道
+ faultTrigger := common.GetFaultTriggerChan()
+
+ // 启动故障监听goroutine
+ go func() {
+ for {
+ select {
+ case <-ctx.Done():
+ return
+ case <-faultTrigger:
+ hwlog.RunLog.Info("Received fault trigger, processing device info update")
+ hdm.handleDeviceInfoUpdate(&initTime)
+ }
+ }
+ }()
+
for {
select {
case _, ok := <-ctx.Done():
@@ -423,29 +466,9 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
}
hwlog.RunLog.Info("listen device stop")
return
- default:
- time.Sleep(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
- common.LockAllDeviceInfo()
- if err := hdm.updateAllInfo(); err != nil {
- hwlog.RunLog.Error(err)
- common.UnlockAllDeviceInfo()
- continue
- }
- // complete the fault codes that cannot be reported by the event subscribe interface
- hdm.mendSubscribeFaultEvents()
-
- hdm.updateDeviceUsedInfo(hdm.groupDevice)
- hdm.notifyToK8s(&initTime)
-
- // if node annotation has reset fail devices but all devices are healthy, clear node annotation
- hdm.checkNodeResetInfo()
-
- hdm.useVolcanoNotify()
- hdm.chipHotReset()
- common.DelOnceRecoverFault(hdm.groupDevice)
- common.DelOnceFrequencyFault()
- common.UnlockAllDeviceInfo()
- common.Synchronize = true
+ case <-ticker.C:
+ hwlog.RunLog.Debug("Periodic device info update")
+ hdm.handleDeviceInfoUpdate(&initTime)
}
}
}
diff --git a/q b/q
new file mode 100644
index 000000000..5724fd421
--- /dev/null
+++ b/q
@@ -0,0 +1,1069 @@
+[33ma7a1768[m[33m ([m[1;36mHEAD -> [m[1;32mbugfix[m[33m, [m[1;31morigin/bugfix[m[33m)[m 优化日志刷屏;优化写k8s次数
+[33m6448c80[m[33m ([m[1;31morigin/master[m[33m, [m[1;32mmaster[m[33m)[m runtime dt 3
+[33ma7fa270[m runtime dt2
+[33md72a9df[m[33m ([m[1;32mruntimedt[m[33m)[m 【docker runtime】DT
+[33m0a0ccb3[m[33m ([m[1;31mupstream/master[m[33m)[m !613 【volcano】【修改说明】volcano重构--增加vnpu处理模块 * 【volcano】【修改说明】volcano重构--调度流程调用修改
+[33mdbde074[m !564 【volcano】【修改说明】volcano重构--volcano调度整体调用流程变更 * 【volcano】【修改说明】volcano重构--调度流程调用修改
+[33mdc97cf1[m !602 【ascend-device-plugin】【修改说明】刷新故障码 * 【ascend-device-plugin】【修改说明】刷新故障码
+[33m579f3d4[m !518 【ascend-device-plugin】【修改说明】add DP DT Merge pull request !518 from zhoupan39/add_dp_dt1
+[33m260fbbc[m !610 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复 Merge pull request !610 from wangjun/dp_bugfix
+[33m48c4d91[m !615 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码
+[33mdb6f745[m !609 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码
+[33m0fd4a64[m 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复
+[33m349a59a[m 【ascend-device-plugin】【修改说明】修改魔鬼数
+[33m6c5e79b[m !605 bugfix: 扫描后未去掉等待三方标记 * bugfix: 扫描后未去掉等待三方标记
+[33m8b4de93[m !611 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起 * 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起
+[33m2a2595b[m 【ascend-device-plugin】【修改说明】add DP DT
+[33mf2112ad[m !601 【nodeD】【pingmesh】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 Merge pull request !601 from Atlas_zxp/master
+[33m928fd4c[m !598 【clusterd】【修改说明】公共故障配置文件加载日志优化 * 【clusterd】【修改说明】公共故障配置文件加载日志优化
+[33m93e252a[m !597 【修改说明】【ClusterD】补充util package dt用例 && 删除util package未使用函数 * 【ClusterD】补充util package dt用例 && 删除util package未使用函数
+[33m2afba34[m !599 确保执行复位才标记busy,防止走不到复位 * 确保执行复位才标记busy,防止走不到复位
+[33ma9303fa[m 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33md57bf98[m 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mc5fdd1d[m !593 bugfix: 节点信息每次复位被清除 * bugfix: return when get phyID error * bugfix: 重复检查canResetDevice * fix cleancode * fix DT * fix review * 防止掉卡场景多次复位 * fix dt * 修复,获取设备状态异常 * fix DT * 防止多次触发该更新标签;设备信息去重 * 仅为A3设备添加关联ID * bugfix: 节点信息每次复位被清除 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修复DT * 【ascend device plugin】修改函数名 * 【ascend device plugin】A3复位后的处理逻辑和之前保持一致 * 【ascend device plugin】A3按最小粒度检查是否恢复
+[33mfa886f5[m !594 【clusterd】【修改说明】添加公共故障配置文件校验及故障数量上限 * 【clusterd】【修改说明】公共故障配置文件校验及故障上限添加
+[33maed3cab[m !585 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 Merge pull request !585 from wangjun/dp_bugfix
+[33m46e76ab[m !591 【修改说明 Modification】如果没有收集到数据,认为卡状态未知,handler初始化失败时不加入结果处理队列 Merge pull request !591 from Atlas_zxp/master
+[33mda0556f[m !575 微重构-调整方法位置 * 微重构-调整方法位置 * Merge remote-tracking branch 'origin/volcano' into volcano * 微重构-调整方法位置 * 微重构-调整方法位置 * DT测试 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * DT测试
+[33m1ab919a[m !595 【修改说明】【ClusterD】pingmesh 日志优化 * fix log
+[33md1d27fa[m !590 [npu-exporter]logger简化调用方式 * [npu-exporter]logger优化
+[33m851e9b9[m !589 [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言 * [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言
+[33m3e12a68[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mf1cf749[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mcd5dc47[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m0dabcea[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mcb8d719[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m6682dde[m 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复
+[33mb3b1222[m 【修改说明 Modification】DT 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33ma480908[m 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复
+[33m4d6b01f[m[33m ([m[1;33mtag: v7.0.RC1.B050[m[33m)[m !583 taskd monitor第三部分 * profiling taskd业务代码
+[33m434f0f3[m !582 profiling taskd monitor第二部分 * profiling taskd业务代码
+[33m9a044ad[m !546 profiling taskd业务代码 * profiling taskd业务代码
+[33md884a37[m !548 profiling dp-clusterd相关功能 * profiling dp-clusterd相关功能
+[33m82edf4a[m !580 【nodeD】【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 * 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改
+[33m5d8b796[m !579 【ascend device plugin】带外复位逻辑完善 * 【ascend device plugin】A3按最小粒度检查是否恢复
+[33mf8899d6[m 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mf636402[m !560 【修改说明】【ClusterD】超节点设备信息发布逻辑 * fix * fix comment * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * fix comment * fix dt * fix * fix * clean code * add node event func * init pingmesh application
+[33m9b63373[m !573 【修改说明】【clusterD】优化任务信息处理逻辑,CM字段 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计
+[33m0e7cc75[m !576 【clusterd】【修改说明】日志及字段优化 * 【clusterd】【修改说明】日志及字段优化
+[33m5f3fd2b[m !569 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度 Merge pull request !569 from YangLei/master
+[33mac98fc0[m 【ascend device plugin】修改DT
+[33mb50b76c[m 【ascend device plugin】修改DT
+[33mbae72e4[m 【ascend device plugin】修改检视
+[33m2393616[m 【ascend device plugin】修改检视
+[33m8af3b82[m !567 【修改说明 Modification】存在未回复的ping,忽略该次结果 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】存在未回复的ping,忽略该次结果
+[33m75852a4[m !570 【volcano】【修改说明】volcano重构--日志调整 * 【volcano】【修改说明】volcano重构--日志调整
+[33mb46889d[m !536 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块
+[33m5c1f838[m !563 【volcano】【修改说明】volcano重构--test用例补充 * 【volcano】【修改说明】volcano重构--test用例修改 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块
+[33m2fbab58[m !568 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息 * 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息
+[33m41e7609[m !558 【ascend-device-plugin】【修改说明】yaml挂载localtime * 【ascend-device-plugin】【修改说明】yaml挂载localtime
+[33m153d7dd[m !559 【taskd】【修改说明】设置构建包版本 * 【taskd】【修改说明】设置构建包版本
+[33m78dea97[m[33m ([m[1;32mdev[m[33m)[m 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度
+[33mad18d17[m Merge branch 'master' of https://gitee.com/ascend/mind-cluster
+[33m0e1df89[m !550 【ascend device plugin】离线复位适配带外,推理复位写节点注释 * 【ascend device plugin】修改DT * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修改检视 * 【ascend device plugin】补充DT * 【ascend device plugin】修复DT报错 * 【ascend device plugin】离线复位适配带外,推理复位写节点注释
+[33m70bf2e3[m 【ascend device plugin】修改DT
+[33ma6fa251[m !565 【修改说明】【clusterD】支持指标统计,DT代码上库 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计
+[33mc849110[m !547 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计
+[33mc8943af[m 【ascend device plugin】修复DT问题
+[33m14f90ac[m 【ascend device plugin】修复DT问题
+[33me00dd9a[m 【ascend device plugin】修复DT问题
+[33m8949e83[m 【ascend device plugin】修改检视
+[33m93ec0a6[m !562 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
+[33m954df6e[m !551 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块
+[33mf857455[m !530 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
+[33m073ccd2[m !561 【device-plugin】【修改说明】dp增加kubelet重注册机制 * re register to kubelet when connect failed
+[33mfc4dacd[m !555 1. 【clusterd】【修改说明】修复clusterd启动后存在5min功能异常问题 * 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块
+[33m890ef45[m !557 【clusterd】【修改说明】对外展示公共故障时间戳单位为秒 * 【clusterd】【修改说明】对外展示公共故障时间戳为秒
+[33maa11a44[m !554 telegraf增加vnpu相关指标 * fix * fix * fix * fix * fix * [npu-exporter]telegraf上报vnpu * [npu-exporter]telegraf上报vnpu * [npu-exporter]调整telegraf更新接口 * [npu-exporter]调整一下vnpu相关 * [npu-exporter]容器相关指标调整
+[33mf9cb3a2[m !553 【device plugin】recovertimeout范围修改 * 【修改说明】recovertimeout范围修改
+[33mfd8de06[m 【ascend device plugin】补充DT
+[33mb4dfee0[m !508 【taskd】 cleancode python文件缩进格式及空行修改 Merge pull request !508 from 郭鹏鑫/master
+[33m2cd965e[m taskd cleancode 文件单双引号统一
+[33m6ccd629[m Revert "taskd cleancode DT构建失败修改"
+[33md0f94fd[m !545 【volcano】【修改说明】volcano重构--数据初始化模块优化 Merge pull request !545 from fengjianqing/vnpu
+[33m125ffeb[m taskd cleancode DT构建失败修改
+[33m56f81c9[m !533 【device-plugin】【修改说明】node annotation 增加超节点id信息 * add super node id info on node annotation
+[33mf78b7f5[m !532 【clusterd】【修改说明】domain层维护超节点设备信息 * change superNode to superPod
+[33m1a5271e[m Merge branch 'master' into cleancode
+[33m980e824[m 【ascend device plugin】修复DT报错
+[33mde24c0a[m 【ascend device plugin】离线复位适配带外,推理复位写节点注释
+[33mc7fc19e[m 【volcano】【修改说明】volcano重构--plugin目录优化
+[33m946f0b2[m Merge https://gitee.com/ascend/mind-cluster into vnpu
+[33m11ccf00[m 【volcano】【修改说明】volcano重构--plugin目录优化
+[33m2a5ee28[m !542 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例 * 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例
+[33m0fe363e[m !544 【nodeD】noded支持pingmesh-wather、executor及编译、部署适配 * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】noded支持pingmesh-wather、executor * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into pi… * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
+[33mf35892d[m 【volcano】【修改说明】volcano重构--数据初始化模块优化
+[33m9b7376c[m !539 【clusterd】【修改说明】【微重构】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整
+[33m483da08[m !540 【clusterd】【修改说明】变更公共故障时间戳单位为ms Merge pull request !540 from weihaoran/pub_ms2
+[33m02a7911[m !541 【DCMI】【hwlog】hwlog增加CustomLogger接口,DCMI-pingemsh接口补充 * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
+[33ma9991f0[m !526 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块
+[33m3735526[m !434 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块
+[33m945f4ef[m 【clusterd】【修改说明】变更公共故障时间戳单位为ms
+[33ma579686[m !535 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volcano的故障reason有PublicFault就显示PublicFault * 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volc…
+[33m8d3ad24[m !534 【ascend device plugin】检查到设备健康就清除复位计数 Merge pull request !534 from YangLei/master
+[33mc0f0dfa[m 【ascend device plugin】检查到设备健康就清除复位计数
+[33m25bf1bf[m !523 【ascend device plugin】训练在线复位增加带外复位 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】增加DT * 【ascend device plugin】增加DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复clean coded * 【ascend device plugin】优化代码逻辑 * out band reset for train online, try out band and update node annotation * temp dev 0226 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复编译问题 * fix build error * 【ascend device plugin】修复cleancode * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步 * 【ascend device plugin】类重命名,职责最小化
+[33m59261ac[m !529 【clusterd】【修改说明】公共故障码更新 * 【clusterd】【修改说明】公共故障码更新
+[33m73a7a8a[m !525 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存
+[33mdba19e7[m !522 [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]clean * [npu-exporter]clean * [npu-exporter]DT * [npu-exporter]DT * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整
+[33mabd38ba[m !517 [npu-exporter] implement vNPU metrics support * added nil check before dereferencing * implemented CollectToCache and UpdatePrometheus for vNPU * use activityVDev copy instead of same variable
+[33mddcfb96[m taskd cleancode python文件缩进格式及空行修改
+[33mec767a2[m !519 【ascend device plugin】1. 添加dcmi接口 2. 修改类名 * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步
+[33m1f2c1fb[m !521 【clusterd】【修改说明】【微重构】needDeleteQueue类上移 * 【clusterd】【修改说明】needDeleteQueue类上移
+[33mc315c9f[m !520 【clusterd】【修改说明】公共故障description正则修改 * 【clusterd】【修改说明】公共故障description正则修改
+[33m3e91efe[m !501 【修改说明 Modification】增加hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口
+[33maed59e8[m !512 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复 Merge pull request !512 from wangjun/dp_bugfix
+[33m85d13c1[m !516 [npu-exporter]DT * [npu-exporter]DT
+[33m2f9cbc9[m !513 [npu-exporter]fix:极端场景下的高并发问题、process指标label中补充containerID信息 * [npu-exporter]fix:极端场景下的高并发问题
+[33ma347698[m 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复
+[33m61a2ad2[m !457 【ascend device plugin】周期检查复位失败标记,判断是否清除 * 【ascend device plugin】解冲突 * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】DT * 【ascend device plugin】修复检视意见 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】每张卡的复位状态独立,分别通过数组保存三方复位的芯片和人工复位的芯片 * Revert "【ascend device plugin】修复clean code导包顺序" * 【ascend device plugin】修复clean code导包顺序 * 【ascend device plugin】修复clean code和编译问题 * 【ascend device plugin】周期检查复位失败标记,判断是否清除
+[33mad2bbcf[m !511 【clusterd】【修改说明】公共故障校验日志优化 Merge pull request !511 from weihaoran/pub_log2
+[33me779f82[m !472 【volcano】【修改说明】volcano重构--重调度模块简化一 Merge pull request !472 from fengjianqing/fault
+[33m18c88c6[m !499 【clusterd】【修改说明】新增公共故障码 * clusterd支持统一故障推送
+[33m3cc9268[m 联调包
+[33me0723d0[m !506 【device-plugin】【修改说明】dp创建containerd客户端初始化优化及dt补充 Merge pull request !506 from wangjun/dp_micro_refactor
+[33m07e2263[m 【device-plugin】【修改说明】dp创建containerd客户端初始化优化
+[33m3eb429f[m taskd cleancode python文件缩进格式及空行修改
+[33m5b511e8[m !509 构建包添加yaml文件 Merge pull request !509 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms
+[33mf8132b5[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
+[33mf7bc10c[m 构建包添加yaml文件
+[33m3770242[m !505 【clusted】【修改说明】完善公共故障信息打印 * clusterd支持统一故障推送
+[33m8aa6e65[m taskd cleancode python文件缩进格式及空行修改
+[33mca09b00[m !504 【device-plugin】【修改说明】cleanCode修改 Merge pull request !504 from wangjun/dp_cleancode
+[33mebf9cae[m !503 [npu-exporter]cleanCode修改 * [npu-exporter]cleanCode修改
+[33mffd86fc[m !502 【volcano】【修改说明】not stable条件修改 * clusterd支持统一故障推送
+[33m7b942c2[m 【device-plugin】【修改说明】cleanCode修改
+[33m658251a[m Merge remote-tracking branch 'origin/master'
+[33m43f8db2[m !498 【device plugin】【clusterd】【taskd】【volcano】【common】clean-code整改 * 【修改说明】cleancode
+[33m85ab90a[m Merge remote-tracking branch 'origin/master'
+[33m6e073e0[m 【修改说明】cleancode-数组下标越界
+[33m78f378d[m !497 clusterd支持统一故障推送 Merge pull request !497 from weihaoran/pub_opti3
+[33meb7b28c[m clusterd支持统一故障推送
+[33m0896060[m 【修改说明】cleancode
+[33maa61915[m !496 【device-plugin】【修改说明】dp与容器通信yaml修改 * 【device-plugin】【修改说明】dp与容器通信yaml修改
+[33m5980077[m !494 clusterd支持统一故障推送 * clusterd支持统一故障推送
+[33m3d822e7[m !491 日志库回滚策略配置提交 * 日志库回滚策略配置
+[33m1725473[m !493 增加init * Merge remote-tracking branch 'upstream/master' into feature/grace_tole… * 包增加init * 包增加init
+[33ma362a83[m !492 clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送
+[33m5d1e0aa[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
+[33md9a6815[m 包增加init
+[33mde86009[m 包增加init
+[33m9994827[m 【volcano】【修改说明】volcano重构--重调度模块简化一
+[33m4d8bb82[m !490 增加ms进程级恢复 Merge pull request !490 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms
+[33m4159456[m !470 【修改说明】【clusterd】clusterd支持故障统一推送 * clusterd支持统一故障推送
+[33mf593dd2[m 增加ms进程级恢复
+[33m3625d9b[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
+[33m3651ee6[m !489 增加故障恢复模块及grpc * 增加故障检测和恢复模块
+[33mfd0db7e[m 增加故障检测和恢复模块
+[33mb614ba5[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
+[33m6954feb[m 增加故障检测和恢复模块
+[33mb332b99[m !469 初始化taskd 基础代码 * dt修改 & 检视修改
+[33m21d244b[m !488 【npu-exporter】重构拆分5 * 2 * 2
+[33m914753b[m !487 【npu-exporter】重构拆分4 Merge pull request !487 from dongpeng30/refactor_4
+[33mc5e53b9[m dt修改 & 检视修改
+[33m1a84a89[m !483 【device-plugin】【修改说明】dp请求apiserver与初始化客户端冲突问题处理 Merge pull request !483 from wangjun/dp_apiserver_fix
+[33m74b0674[m dt修改 & 检视修改
+[33mca968da[m !486 【npu-exporter】重构拆分3 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1
+[33m6e823ef[m !479 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复
+[33m9e23978[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
+[33m3267ba5[m dt修改 & 检视修改
+[33mb876475[m !468 【taskd】【修改说明】上传日志模块基础代码 * 上传日志模块基础代码
+[33m2c9dd02[m dt修改 & 检视修改
+[33m5e66424[m dt修改 & 检视修改
+[33mea8aaf6[m dt修改 & 检视修改
+[33md67d845[m !485 【npu-exporter】重构2 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1
+[33mfd6535b[m !484 【修改说明】npu-exporter重构拆分1 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1
+[33md44177b[m !481 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务 Merge pull request !481 from fengjianqing/debug
+[33m736d9b5[m 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务
+[33m59a083d[m !478 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分
+[33mf6bd880[m !476 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分
+[33md61aea6[m !474 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息
+[33mb424637[m !475 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分
+[33m11b8af0[m 【volcano】【修改说明】volcano重构--重调度模块简化一
+[33mb87a535[m dt修改 & 检视修改
+[33m9fb083a[m !467 noded通过ipmi获取sn信息并写入node的annotation上 Merge pull request !467 from wuweilin/master-0215
+[33mfd13272[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
+[33m1da950b[m noded通过ipmi获取sn信息并写入node的annotation上
+[33m4cfd5a9[m !466 【device-plugin】【修改说明】dp组件日志刷屏问题修复 Merge pull request !466 from wangjun/dp_log
+[33m401b090[m !431 【修改说明】整机调度优化通过端口获取Pod信息 * 【修改说明】整机调度优化通过端口获取Pod信息
+[33mba93674[m 上传msmgr
+[33m6765263[m 修改包路径
+[33m727f42d[m !458 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载
+[33mfccf7bb[m !465 【volcano】【修改说明】A3 A+X亲和性调度 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * Merge remote-tracking branch 'origin/master' into a+x-dt * 【volcano】【修改说明】A3 A+X亲和性调度 DT补充 * 【volcano】【修改说明】支持A3 A+X亲和性调度
+[33m1d6d581[m !453 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息
+[33md259dfa[m elastic agent原始代码迁移
+[33mb9a7a58[m !438 switch适配修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * dt修复 * 检视修改 * 修改日志打印 * 修改打印 * 修改dt * 修改dt * 修改dt * switch适配修改 dt * 适配逻辑修改 * switch适配修改 * 修改common库路径使得其他仓库可以引用
+[33m3cf6237[m 【device-plugin】【修改说明】dp组件日志刷屏问题修复
+[33me2c7118[m 【device-plugin】【修改说明】dp组件日志刷屏问题修复
+[33m049918a[m !454 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * Merge https://gitee.com/ascend/mind-cluster into 330 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层
+[33md7bb1a7[m 【device-plugin】【修改说明】dp组件日志刷屏问题修复
+[33m3a06eb4[m !444 【修改说明】[clusterd]-cleancode * 【修改说明】[clusterd]-cleancode
+[33mb852283[m !449 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程 * 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程
+[33m9839d35[m !436 【taskd】【修改说明】taskd初始化提交 * taskd初始化提交
+[33maeef459[m !440 修改故障码 * 修改故障码
+[33m02bb3bd[m !455 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy * 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy
+[33m6a6b09f[m !448 【clusterd】【修改说明】add test for recover plugin * add test for recover plugin
+[33m6e1053d[m !447 【clusterd】【修改说明】add test for controller * ut
+[33m3f977c5[m !452 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低
+[33m98be6af[m !451 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报 * 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报
+[33m9692227[m !446 【clusterd】【修改说明】add test for recover service * comment fix
+[33m8376d71[m !437 【修改说明】增加cardID、deviceID缓存 * 【修改说明】增加cardID、deviceID缓存
+[33m17756d8[m !429 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录分层
+[33m96b8dde[m !439 修改0x08520003 增加na * 修改0x08520003 增加na
+[33m69042ec[m !425 【修改说明】[clusterd]cleancode * 【修改说明】[clusterd]-cleancode
+[33m61f6574[m !435 【volcano】【修改说明】volcano重构--删除冗余代码 * 【volcano】【修改说明】volcano重构--删除冗余代码
+[33m09f7ebc[m !432 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】【NodeD】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题
+[33m5ec771a[m !397 【ClusterD】仅支持dump场景直接通知mindio保存ckpt * 【ClusterD】仅支持dump场景直接通知mindio保存ckpt
+[33mb876f86[m !423 【ascend-for-volcano】适配clusterd主动保存ckpt场景 * 【ascend-for-volcano】适配clusterd主动保存ckpt场景
+[33m9b69604[m !426 【修改说明】【clusterD】DT用例 clean code * 【修改说明】【clusterD】DT用例 clean code
+[33m75113e1[m !427 【修改说明】[clusterd]faultmanager重构-bugfix * 【修改说明】[clusterd]faultmanager重构-bugfix
+[33m966d12a[m !414 【修改说明】[clusterd]faultmanager重构-faultmanager的功能下沉到faultdomain中 * 【修改说明】[clusterd]faultmanager重构-处理v6 rebase on v5
+[33md31b111[m !413 【修改说明】[clusterd]faultmanager重构-job fault rank、fault job、cmmanager、各个center单独提出来。 * 【修改说明】[clusterd]faultmanager重构-v5 rebase on v4 处理冲突
+[33mcfb6827[m !412 【修改说明】[clusterd]faultmanager重构-uce_accompany单独提出来。 * 【修改说明】[clusterd]faultmanager重构-cleancode
+[33mb270c67[m !424 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test * 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test
+[33mb315c7e[m !410 【修改说明】[clusterd]faultmanager重构-DT * 【修改说明】[clusterd]faultmanager重构-dt
+[33m5896898[m !407 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来 Merge pull request !407 from lirui238/fm-refactor-v3
+[33mc844a6d[m !416 【修改说明】【ClusterD】complete grpc common package DT test * add DT
+[33mb87310f[m !420 【volcano】【operator】【clusterD】clean-code整改 * 【修改说明 Modification】clean-code
+[33m8538344[m !417 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。
+[33m063cbf0[m !405 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网 * 【修改说明】[operator] 修改变量设置值,以及优化日志 * Merge remote-tracking branch 'origin/master' into dynamic-hccs-env * 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网
+[33mbe4875a[m !411 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * Merge branch 'master' of https://gitee.com/shepherd_cheung/mind-cluster * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充
+[33m468d02b[m !409 【修改说明】【ClusterD】bug fix for div zero * add div zero check * fix devicePerNode is 0
+[33m7fb4ed1[m !358 【修改说明】【ClusterD】add grpc common package DT test * fix test name * fmt * fmt * change Ltd time * fix test * add test * add test * add test * init logger * add dt test
+[33m36f7c08[m !401 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充
+[33m83fca4c[m 【修改说明】[clusterd]faultmanager重构-bugfix
+[33m6ffe87f[m 【修改说明】[clusterd]faultmanager重构-dt
+[33m5c0a5c6[m 【修改说明】[clusterd]faultmanager重构-bugfix
+[33m29776c5[m 【修改说明】[clusterd]faultmanager重构-codecheck
+[33mca08fe6[m 【修改说明】[clusterd]faultmanager重构-根据cm更新,判断是否需要处理
+[33mf0f916c[m 【修改说明】[clusterd]faultmanager重构-从pg获取resource type
+[33m5bf0a71[m 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来
+[33m825506b[m 【修改说明】[clusterd]将informer缓存起来,防止丢失故障信息
+[33mc93909f[m !394 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例
+[33mcfbcfd4[m !361 【ascend-operator】微重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构
+[33mf58964a[m !391 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。 Merge pull request !391 from lirui238/manuallysparatenpu-handle
+[33mb389c85[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。修复检视意见。
+[33m1f0a7f0[m !373 【volcano】【修改说明】算力切分支持B2模板 Merge pull request !373 from fengjianqing/master
+[33m599fb51[m !392 【修改说明】【noded】clean-code修改 Merge pull request !392 from weihaoran/noded-cleancode
+[33m06a5cd1[m 【volcano】【修改说明】算力切分支持B2模板
+[33maaf1035[m !393 【修改说明】cleancode-格式化 * 【修改说明】cleancode-格式化
+[33m4f736b4[m !390 【volcano】【修改说明】补充DT用例 * 【修改说明】cleancode问题修改 * 【修改说明】cleancode问题修改 * 【修改说明】补充DT用例
+[33m343565c[m 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。
+[33mbe09550[m !382 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。 * 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。
+[33m29cd535[m !383 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * Merge branch 'master' of gitee.com:ascend/mind-cluster * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * 【修改说明】整体利用率、pciebandwidth指标刷屏-todo
+[33m803c3ba[m !379 job重构DT补充吗,去掉-race Merge pull request !379 from wuweilin/master-0107
+[33m2b4aa5a[m !386 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作' Merge pull request !386 from luxiang6/revert-merge-338-master
+[33m64d72d5[m[33m ([m[1;31mupstream/revert-merge-338-master[m[33m, [m[1;31morigin/revert-merge-338-master[m[33m)[m 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作'
+[33m07a420a[m !362 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。 Merge pull request !362 from lirui238/uce-accompany-fix
+[33mf33e386[m !375 【volcano】【修改说明】补充DT用例 Merge pull request !375 from wangjun/master
+[33mc088c49[m !370 【device-plugin】【修改说明】 补充DT用例 Merge pull request !370 from 郭鹏鑫/DT
+[33m143f4c3[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。检视意见
+[33mdd3642f[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。用例设计
+[33mb94e225[m Merge remote-tracking branch 'gpx/DT' into DT
+[33mc2fda3c[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33md5eb93b[m Merge remote-tracking branch 'origin/master' into DT
+[33m07cda12[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m63203d3[m Merge remote-tracking branch 'gpx/DT' into DT
+[33m05b8917[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m36bb23f[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m433e7a2[m !378 【修改内容】【volcano】增加DT用例 * 【修改内容】【volcano】增加DT用例
+[33maa56882[m !356 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例
+[33m8baf65f[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33md446766[m !377 【修改说明】noded剩余ut补充 * 【修改说明】noded剩余ut补充
+[33m6278e62[m Merge remote-tracking branch 'gpx/DT' into DT
+[33mb750d60[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mb12a160[m job重构DT补充吗,去掉-race
+[33m3bfc81e[m !338 【修改说明】去除更新fault-config-cm的冗余操作 * 【修改说明】去除更新fault-config-cm的冗余操作
+[33m218c1b0[m !128 【轻量级 PR】:support pod that has multiple containers and only one of containers has NPU Merge pull request !128 from kingeasternsun/fix/get-aicorenum-fromtask
+[33m5df28dc[m !127 【轻量级 PR】:getVirTemplate 中 virTemplate 参数无用 Merge pull request !127 from kingeasternsun/improve/get-vir-template
+[33m8dad30b[m 【修改说明】补充DT用例
+[33m358cbd4[m 【修改说明】补充DT用例
+[33m3aac3df[m Merge branch 'master' of gitee.com:ascend/mind-cluster into DT
+[33m91a1bdd[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mcc9ac3d[m !366 【修改内容】Volcano增加DT用例 Merge pull request !366 from wangjun/master
+[33mc5b9804[m !365 job重构DT补充 Merge pull request !365 from wuweilin/master-1228
+[33m6415e33[m job重构DT补充
+[33md36e349[m !364 【修改内容】Volcano增加DT用例 * 【修改内容】增加DT用例
+[33m508bf2c[m !369 【volcano】【修改说明】补充DT用例 Merge pull request !369 from fengjianqing/master
+[33m3cf1b1d[m 【修改说明】补充DT用例
+[33m1243238[m 【修改说明】补充DT用例
+[33m768f251[m !367 【修改说明】cleancode修改-33 * 【修改说明】cleancode修改-33
+[33m2be4d6d[m 【volcano】【修改说明】补充DT用例
+[33ma4f9996[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m8420263[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m3de247a[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mda64a1c[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m9fd81b5[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m9262b0e[m 【修改说明】补充DT用例
+[33mf331bd0[m 【修改说明】补充DT用例
+[33m5bb1fb6[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mc2687e9[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33md10c65d[m !363 【volcano】【修改说明】补充DT用例 Merge pull request !363 from fengjianqing/master
+[33mec5d7a4[m 【修改说明】补充DT用例
+[33m5d2300d[m 【修改说明】补充DT用例
+[33m1ff8a96[m 【修改说明】补充DT用例
+[33mafc138f[m 【修改说明】补充DT用例
+[33ma5cc2ca[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。
+[33m639da31[m !357 job重构DT补充 Merge pull request !357 from wuweilin/master-1228
+[33m8948a82[m job重构DT补充
+[33mdbdc0e0[m 【volcano】【修改说明】补充DT用例
+[33m2db478f[m !348 【修改说明】noded config包、kubeclient包DT补充 * 【修改说明】noded config包、kubeclient包ut补充
+[33m7986814[m !321 dt新增用例 Merge pull request !321 from fengjianqing/master_fix
+[33m9fff6da[m !360 【volcano】【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例
+[33ma0a3454[m !329 【修改内容】仓库名称修改 Merge pull request !329 from luxiang6/master
+[33m466bac7[m !355 【device-plugin】【修改说明】修改DT用例 Merge pull request !355 from zhoupan39/master
+[33md5d6c9b[m !359 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例
+[33mcbb442f[m !346 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例
+[33m259268d[m 【device-plugin】【修改说明】多个打桩函数写入一个变量
+[33m5958268[m 【volcano】【修改说明】补充DT用例
+[33mbfec1dc[m 【device-plugin】【修改说明】修改DT用例
+[33m0be6539[m !354 【volcano】【修改说明】补充DT用例 Merge pull request !354 from wangjun/volcano_dt3
+[33m2af9963[m !353 【volcano】【修改说明】补充DT用例 Merge pull request !353 from wangjun/volcano_dt2
+[33m03c9571[m !352 【volcano】【修改说明】补充DT用例 Merge pull request !352 from wangjun/volcano_dt
+[33m0528b4f[m 【修改说明】补充DT用例
+[33m92ec347[m 【修改说明】补充DT用例
+[33m1d4724c[m 【修改说明】补充DT用例
+[33m76cb663[m 当任务变更成failed或者completed状态时,新增deleteTime
+[33m1ec1774[m !345 【device-plugin】【修改说明】补充DT用例 Merge pull request !345 from zhoupan39/dt2
+[33m80eca72[m !319 【device-plugin】【修改说明】补充DT用例 Merge pull request !319 from zhoupan39/master
+[33mcbbda0e[m 【device-plugin】【修改说明】补充DT用例
+[33me1dc166[m 【device-plugin】【修改说明】补充DT用例-第二批
+[33mb2b3727[m !340 【修改说明】noded common包ut补充 * 【修改说明】noded common包ut补充
+[33m93264bb[m !326 【修改说明】[clusterd]增加ut Merge pull request !326 from lirui238/clusterd-faultmanager-ut
+[33mf1e6a64[m !337 job重构DT补充 Merge pull request !337 from wuweilin/master-1228
+[33md854ed0[m !313 【device-plugin】【修改说明】 补充DT用例 Merge pull request !313 from 郭鹏鑫/DT
+[33m46a8c14[m !341 【修改说明】增加DT * 【修改说明】DT
+[33m9840460[m !333 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例
+[33m3e1d53e[m job重构DT补充
+[33ma3034d9[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33me9e789f[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m1be5f47[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m16fde83[m 【修改说明】device-plugin server 补充DT用例
+[33me821708[m 【修改说明】device-plugin server 补充DT用例
+[33m42aaf70[m 【修改说明】device-plugin server 补充DT用例
+[33m7f60807[m 【修改说明】device-plugin server 补充DT用例
+[33md5a65d0[m 【修改说明】device-plugin server 补充DT用例
+[33m1284602[m 【修改说明】device-plugin server 补充DT用例
+[33m36a5026[m 【修改说明】device-plugin server 补充DT用例
+[33m8a76420[m 【修改说明】device-plugin server 补充DT用例
+[33m2608296[m 【修改说明】device-plugin server 补充DT用例
+[33m7df28a4[m 【修改说明】device-plugin server 补充DT用例
+[33m9b42b26[m !335 【修改说明】删除非软件故障pod label Merge pull request !335 from tiankaijin/fixmaster
+[33mc54482b[m 【修改说明】device-plugin server 补充DT用例
+[33mce3cf2a[m 【修改说明】device-plugin server 补充DT用例
+[33mc461fd9[m 【修改说明】device-plugin server 补充DT用例
+[33me8551be[m 【修改说明】device-plugin server 补充DT用例
+[33m27b90f4[m fix label
+[33mf357d03[m 【修改说明】device-plugin server 补充DT用例
+[33ma8d5b8f[m 【修改说明】device-plugin server 补充DT用例
+[33m0f2510c[m 【修改说明】device-plugin server 补充DT用例
+[33m88fb9c0[m 【修改说明】device-plugin server 补充DT用例
+[33mf104241[m 【修改说明】device-plugin server 补充DT用例
+[33m02f8701[m 【修改说明】device-plugin server 补充DT用例
+[33m767742a[m 【修改说明】device-plugin server 补充DT用例
+[33m7ddb3f5[m 【修改说明】device-plugin server 补充DT用例
+[33m6b4a600[m 【修改说明】device-plugin server 补充DT用例
+[33m848634e[m 【修改说明】device-plugin server 补充DT用例
+[33ma379e0b[m 【修改说明】device-plugin server 补充DT用例
+[33m9cfdaf0[m 【修改说明】device-plugin server 补充DT用例
+[33m2bcaed3[m 【修改说明】device-plugin server 补充DT用例
+[33mcd6007d[m 【修改说明】device-plugin server 补充DT用例
+[33m261bb7f[m 【修改说明】device-plugin server 补充DT用例
+[33m6afa791[m 【修改说明】device-plugin server 补充DT用例
+[33m9c21d5e[m 【修改说明】device-plugin server 补充DT用例
+[33md79c0c2[m 【修改说明】device-plugin server 补充DT用例
+[33m1dd51a8[m 【修改说明】device-plugin server 补充DT用例
+[33m646238e[m 【修改说明】device-plugin server 补充DT用例
+[33m6be3116[m 【修改说明】device-plugin server 补充DT用例
+[33m6984805[m 【修改说明】device-plugin server 补充DT用例
+[33m9edadca[m 【修改说明】device-plugin server 补充DT用例
+[33m429e06c[m Merge branch 'master' of https://gitee.com/luxiang6/mindxdl
+[33md894bc4[m 改名修改
+[33me0ba793[m !327 【修改说明】[clusterd]修改clusterd关联故障时间 Merge pull request !327 from fengjianqing/tmp
+[33m71db399[m 【修改说明】[clusterd]修改clusterd关联故障时间
+[33m17a93ab[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33md71cf65[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m1967c7b[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m1ff53c4[m 【修改说明】[clusterd]增加ut
+[33me406e6d[m !298 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula
+[33m85d26da[m !323 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度 Merge pull request !323 from fengjianqing/tmp
+[33mdea302f[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m7b25b0e[m 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度
+[33m07a06c1[m !318 【修改说明】支持平台修改策略 & 平台场景去掉等待调度成功逻辑 Merge pull request !318 from tiankaijin/x1fix
+[33m9237dd6[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m05fa864[m fix
+[33m8657cd8[m !314 【clusterD】【nodeD】clean-code整改 Merge pull request !314 from Atlas_zxp/master-cleancode
+[33mfffe7c9[m Merge branch 'refs/heads/master' into DT
+[33m496be09[m fix
+[33m169a7b1[m !299 【修改说明】[npu-exporter]修复crypto漏洞 Merge pull request !299 from lirui238/crypto-issue
+[33m1d6902f[m !311 【clusterd】【修改说明】文件初始化问题修复 Merge pull request !311 from fengjianqing/master_fix
+[33m1748081[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m24bd0c9[m 【修改说明】[npu-exporter]修复crypto漏洞
+[33m7d752dd[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mcbff6f7[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mab5110d[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m0ab07a8[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mfafcafc[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m6de0bed[m 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m6a36e95[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33mcdf3b96[m 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33ma385ac6[m 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m0271e91[m Merge branch 'master' into DT
+[33md5233d6[m 【修改说明】device-plugin kubeclient 补充DT用例
+[33m111a1c2[m 【clusterd】【修改说明】文件初始化问题修复
+[33mf72b526[m Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl
+[33mbd84944[m !309 补充NSLB2.0厂家的masterAddr参数 Merge pull request !309 from wuweilin/master-1221
+[33mc1c2815[m !308 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复
+[33mdf36db4[m 补充NSLB2.0厂家的masterAddr参数
+[33maf87c6a[m !306 【修改说明】等待AI平台ProcessResultFault逻辑去掉长度为0判断 * fix
+[33m9d4f4e3[m !304 【修改说明】重复label问题修复 * fix * fix
+[33m5a8d424[m !302 【修改说明】jobName换pgName Merge pull request !302 from tiankaijin/x1
+[33m167cc89[m fix
+[33mfdfca00[m !218 【lssue】Device-Plugin getDeviceFaults增加频率类型网络故障相关代码 Merge pull request !218 from 郭鹏鑫/frequency
+[33m52b2347[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
+[33ma1633b2[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
+[33m0124134[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
+[33m2703ade[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
+[33mb51639d[m 【修改说明】device-plugin kubeclient DT
+[33mc24bcec[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充
+[33m9fa8b55[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充
+[33m2318727[m !282 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。
+[33maf02981[m !279 【clusterD】【volcano】【nodeD】【断点续训】nodeD不再上报节点心跳,volcano、clusterD适配修改 Merge pull request !279 from Atlas_zxp/remove-heartbeat
+[33mc62786f[m !293 【volcano】【断点续训】volcano为节点打分时,最低分为0 Merge pull request !293 from Atlas_zxp/cherry-pick-1734601670
+[33mc2d58c6[m Merge remote-tracking branch 'upstream/master'
+[33m8eee278[m 【修改说明 Modification】volcano为节点打分时,分布不能为负值 (cherry picked commit from
+[33mee08ddd[m 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m2616428[m !284 【clusterd】【修改说明】修复多次打印日志的问题 Merge pull request !284 from wsy/111master
+[33m7388014[m 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m532afff[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分
+[33m6f530ff[m 【修改说明 Modification】nodeD不再上报节点心跳,volcano、clusterD适配修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m3e5af31[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分
+[33m84ec8bd[m 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m4f10786[m 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m6c39987[m Merge branch 'master' into frequency
+[33mfc82b1f[m Merge remote-tracking branch 'origin/master'
+[33m6cc1bc7[m !288 【dcmi】【芯片网络状态查询】goroutin泄露问题修改 Merge pull request !288 from Atlas_zxp/memoryleak-bugfix
+[33m0712fb7[m !289 【修改说明】修复github.com/opencontainers/runc漏洞 Merge pull request !289 from lirui238/dts-runc-v1.1.5-prob
+[33m901d018[m !286 【修改说明】软件故障直接触发pod打标签(AI平台场景) Merge pull request !286 from tiankaijin/label
+[33md70ee5f[m fix
+[33m956af44[m 【修改说明】修复github.com/opencontainers/runc漏洞
+[33m7e6eaac[m 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m71b842a[m 【修改说明】A3网络故障适配
+[33mbb533c0[m !276 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题 * 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题
+[33m565c988[m 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mcbd0275[m 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m22356dd[m 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m3aee668[m Merge branch 'master' into frequency
+[33mc857acd[m Merge remote-tracking branch 'origin/master'
+[33mad50fe8[m !265 【修改说明】cleancode Merge pull request !265 from tiankaijin/master
+[33m7fa1cdc[m !274 解决偶现hccl不完整的问题 Merge pull request !274 from wuweilin/master-1216
+[33m9aa16b7[m 解决偶现hccl不完整的问题
+[33mee54000[m !273 支持网络关联故障bug修复 Merge pull request !273 from fengjianqing/new
+[33m8bc99e6[m fix
+[33m65f062d[m RC3支持网络关联故障bug修复
+[33m4be5ae7[m !270 【DP】【修改说明】cqe错误码改为L1 Merge pull request !270 from wsy/code
+[33m773d8ed[m 【修改说明】A3网络故障适配
+[33m757df07[m 【修改说明 Modification】volcano不检测nodeD上报的心跳 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m6957c6f[m 【修改说明】A3网络故障适配
+[33m087c785[m 【修改说明】A3网络故障适配
+[33mcefa11d[m fix
+[33m1c25349[m Merge remote-tracking branch 'origin/master'
+[33mf5c2aaf[m clean code
+[33m7a008cf[m 【修改说明 Modification】取消心跳上报,节点状态有更新才上报 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m18a3090[m !261 【修改说明】解决部分指标刷屏日志 * 【修改说明】刷屏日志处理
+[33mfcf3fd7[m !259 【修改说明 Modification】switch和node故障支持进程级恢复补充修改 Merge pull request !259 from Atlas_zxp/process-bugfix
+[33m6864b01[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m1c101d4[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m4f85875[m !252 【修改说明】兜底mindio和mindx开关不一致问题 Merge pull request !252 from tiankaijin/fixSwitch
+[33ma9dc9ba[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m669d371[m fix
+[33md3674db[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m57d7f98[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m4af716a[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33ma8f57e4[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m23acd29[m fix
+[33m4b44fa4[m !253 【修改说明 Modification】switch和node故障支持进程级恢复 Merge pull request !253 from Atlas_zxp/process-bugfix
+[33m08eeda3[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mbf7dc1c[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m4702205[m !222 【修改说明】volcano支持关联故障 Merge pull request !222 from fengjianqing/volcano
+[33m3e602a8[m Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl into process-bugfix
+[33m05e1388[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m77993a9[m !133 【修改说明】A3 hccs关联故障适配 * 【修改说明】A3网络故障适配
+[33m3feeb94[m clusterd支持网络关联故障
+[33mea5582e[m !251 dp支持hccl算子重执行 Merge pull request !251 from fengjianqing/dp
+[33m9f8e0c1[m !216 【clusterd支持关联故障】 * clusterd支持网络关联故障 * clusterd支持关联故障
+[33m3e31424[m fix
+[33m64717af[m fix
+[33m378ec8a[m fix
+[33med68f1f[m dp支持hccl算子重执行
+[33m6540065[m Merge branch 'refs/heads/master' into frequency
+[33m8a9d1b9[m Merge remote-tracking branch 'origin/master'
+[33me7a8e82[m 【修改说明】device-plugin frequency
+[33mf57eb24[m 【修改说明】device-plugin frequency
+[33m7a6a388[m !247 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态 Merge pull request !247 from Wangmin362/jobstatus-update
+[33md3b421d[m !246 【修改说明】重调度兜底hotReset=1与进程级恢复不兼容的问题 Merge pull request !246 from tiankaijin/fixHotReset
+[33me4f9d66[m !224 【修改说明】更新修复结果到annotation中 Merge pull request !224 from tiankaijin/updateResult
+[33m1567a18[m 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态
+[33m9cef76f[m fix
+[33me10837c[m fix
+[33me362c53[m update result
+[33ma049bdb[m fix
+[33m4d99c42[m 【修改说明】device-plugin frequency
+[33m77e4e75[m 【修改说明】device-plugin frequency
+[33mec678f0[m 【修改说明】device-plugin frequency
+[33mb809297[m Merge branch 'refs/heads/master' into frequency
+[33m16d5023[m Merge remote-tracking branch 'origin/master'
+[33m38e981b[m !244 ccae联调修改 Merge pull request !244 from wuweilin/jobr5
+[33m0e55751[m fix
+[33m1e2a5c4[m fix
+[33m5b6d833[m ccae联调修改
+[33m1e501f7[m fix
+[33m15c78d6[m !231 【修改说明】移除原来的cmManager * 【修改说明】移除原来的cmManager
+[33m86de04b[m !242 【修改说明】report的updatechan长度扩展 Merge pull request !242 from lirui238/cherry-pick-1733921599
+[33md46b86e[m fix
+[33m3513739[m 【修改说明】report的updatechan长度扩展 (cherry picked commit from
+[33m8c63ea5[m !238 【修改说明 Modification】增加异常错误日志 Merge pull request !238 from Wangmin362/opt2
+[33meff9323[m !225 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。
+[33m3735edb[m !226 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix Merge pull request !226 from Atlas_zxp/operator-bugfix
+[33m44b7a53[m 【修改说明 Modification】增加异常错误日志
+[33m8728269[m 【修改说明】支持关联故障
+[33m876fbf2[m !233 【修改说明】cleanCode修改 Merge pull request !233 from dongpeng30/clean_code
+[33m7c835a5[m clean code
+[33m117f303[m fix
+[33m1dae39c[m Merge branch 'refs/heads/master' into frequency
+[33m010293e[m Merge remote-tracking branch 'origin/master'
+[33m3ff39c8[m 【修改说明】cleancode修改
+[33m7a76e78[m Merge remote-tracking branch 'upstream/master'
+[33m29950ec[m 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m68b186f[m add fix result
+[33m14d0b5c[m !176 【修改说明 Modification】fault manager来决策是否做step-retry Merge pull request !176 from lirui238/faultmanager-juedge-stepretry-v2
+[33m1e45dc1[m 【修改说明】volcano支持关联故障
+[33m8695017[m 【修改说明】volcano支持关联故障
+[33md11ed73[m !209 【修改说明 Modification】jobCache 调整返回值顺序,删除无用代码 * 【修改说明 Modification】调整返回值顺序,删除无用代码
+[33m60894dc[m 【修改说明】抽取公共方法,解决检视意见
+[33m325c966[m !203 【ascend operator】因为elastic无法读取configmap的软连接挂载,以文件形式保存rank table version字段 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * save rank table version to file
+[33m272772e[m !202 【修改说明】volcano支持从clusterd写的标签获取故障任务 Merge pull request !202 from fengjianqing/volcano
+[33mc5e4654[m Merge branch 'refs/heads/master' into frequency
+[33m29b3b34[m Merge remote-tracking branch 'origin/master'
+[33m6b87e3d[m 【修改说明】device-plugin frequency
+[33m8db2b7e[m 【修改说明】fix validBusinessReport
+[33m3b3bb36[m !204 【修改说明 lock bug修复。 Merge pull request !204 from lirui238/nil-bug
+[33m88ed452[m !183 [wip] 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】pg的Uid应该从Pod annotations中获取而不是labels * 【修改说明 Modification】解决合并冲突 * Merge remote-tracking branch 'origin/master' into jobCacheExpection * 【修改说明 Modification】日志信息添加pod Name以及名称空间 * 【修改说明】当从Pod无法获取PodGroup信息时,从ApiServer获取PodGroup信息,以保证断点续训可以正常的注册 * 【修改说明】修改日志级别使用方法,从Errorf修改为Error * 【修改说明】修改获取PG的判断名称空间和名字的逻辑 * 【修改说明】添加注释,修改日志级别 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题
+[33m372ebb4[m 【修改说明】出volcano包
+[33mf40dd6d[m 【修改说明】grpc同样修改判断逻辑
+[33m1678ee7[m 【修改说明】fault manager判断step retry
+[33m611b092[m Merge remote-tracking branch 'origin/master'
+[33m3c3dec0[m !200 【修改说明】device-plugin SetSlowNodeNoticeEnv开关参数名修改 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge remote-tracking branch 'origin/master' * Merge remote-tracking branch 'origin/master' * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
+[33m3b7a26a[m 【修改说明 nil bug修复。
+[33m5c8a282[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
+[33me132a2e[m Merge remote-tracking branch 'origin/master'
+[33m84ad338[m 【修改说明】device-plugin frequency
+[33m7e2f08b[m 【修改说明】volcano支持从clusterd写的标签获取故障任务
+[33maf8f27f[m !199 1520故障码级别修复 * 1520故障码级别修复
+[33m5bdfc97[m !153 docker-runtime、operator和dp组件依赖从npu-exporter切换到ascendcommon * ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common
+[33ma6e1819[m Merge remote-tracking branch 'origin/master'
+[33m9affdb6[m !155 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable Merge pull request !155 from lirui238/reduce-recover-config
+[33m05db5f4[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
+[33me604cab[m 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable
+[33m6b2919b[m !177 【修改说明 Modification】reporter订阅faultmanager * 【修改说明 Modification】reporter订阅faultmanager
+[33m2e0b604[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
+[33m21dfd3f[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
+[33m4ec0089[m !171 【修改说明】修复volcano偶现不触发重调度问题 * 【修改说明】修复
+[33m0787992[m !180 【修改说明】热复位去掉checkcode检查 Merge pull request !180 from tiankaijin/checkcode
+[33m62c45fb[m !178 【修改说明】调度失败后,将状态机走faultRetry,由volcano接管 Merge pull request !178 from tiankaijin/faultRetry
+[33ma3980d4[m remove check code
+[33m266a295[m fix scheduling fail case
+[33ma90e86f[m !172 【修改说明 Modification】clusterd使用common包,并设置日志长度为2048。 Merge pull request !172 from lirui238/clusterd-use-common-pkg
+[33m9d9fdea[m !175 修复加锁bug Merge pull request !175 from tiankaijin/fixrlock
+[33mbcbf925[m 【修改说明 Modification】clsuterd使用common包,并设置日志长度为2048。
+[33m3fd31b7[m fix
+[33m2ada92d[m !170 job模块重构-自测修改 Merge pull request !170 from wuweilin/jobnew2
+[33m8c3df2a[m job模块重构-自测修改
+[33m43a2a83[m !169 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复 * 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复
+[33md7e96ab[m !162 在多节点下可以正确找到linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into clusterd_log * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡
+[33m201b393[m !154 修复获取热复位芯片数逻辑
+[33m1d38ad9[m !157 【ascend operator】解决rank table的并发修改冲突,将pod删除事件放到reconcile进程中处理 Merge pull request !157 from YangLei/master
+[33m318ef88[m !164 【修改说明】修复组件reset.json 结构不一致导致的checkCode检查失败的问题 Merge pull request !164 from tiankaijin/master
+[33m1acf3bd[m !168 【修改说明】取消step重计算的故障刷新时间 Merge pull request !168 from tiankaijin/sleep
+[33m6e72775[m !165 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。 Merge pull request !165 from lirui238/aic-aiv-fault-report
+[33mfa56db3[m 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。
+[33m6085d2f[m fix
+[33m1978f3c[m re initial servers
+[33m97c1129[m fix
+[33meb631ce[m patch
+[33m6573385[m !167 job重构第三部分 Merge pull request !167 from wuweilin/jobnew2
+[33m7b16718[m job模块重构-第三部分
+[33m7f08130[m !166 job重构第二部分 Merge pull request !166 from wuweilin/jobnew
+[33mead3737[m job模块重构-第二部分
+[33m8c4a213[m !152 job模块重构 Merge pull request !152 from wuweilin/jobnew
+[33mb622cdf[m job模块重构-第一部分
+[33med04c6f[m fix
+[33m81278fd[m fix reset json struct
+[33m53ec45b[m Merge remote-tracking branch 'upstream/master'
+[33mdfbf61b[m !156 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全 Merge pull request !156 from lirui238/device-plugin-faulttime-bug
+[33m49a5145[m 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全
+[33m9ac2066[m Merge branch 'master' of gitee.com:tiankaijin/mindxdl
+[33mc2517b3[m fix
+[33m60762bc[m handle events in one proc
+[33m59f8451[m ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common
+[33m93da42e[m !151 【修改说明 Modification】uce test * 【修改说明 Modification】增加uce test
+[33madce177[m !147 【修改说明 Modification】重构faultmanager中configmap的使用 * 【修改说明 Modification】重构faultmanager中configmap的使用,使用泛型 * 【修改说明 Modification】重构faultmanager中configmap的使用
+[33mae2f637[m !148 【修改说明】修复dump和Exit策略监听pg running 的时序问题 * fix * fix * fix
+[33mc7049e3[m fix
+[33mfcad3e2[m !141 【修改说明 Modification】faultmanager ut Merge pull request !141 from lirui238/faultmanager-ut
+[33m8dca9b1[m !139 【ascend operator】operator重启时,重置version字段 * "patch" * "patch" * Merge branch 'master' of gitee.com:ascend/mindxdl into hccl * "add comment" * "patch" * "patch" * "patch" * "add commment for exposed func" * "reset cm version when operator reboot"
+[33m92677e7[m Merge remote-tracking branch 'release/master' into faultmanager-ut
+[33m2f46156[m fix
+[33mfe1421f[m fix
+[33m3a38b34[m !144 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志 Merge pull request !144 from lirui238/debug-faulttime
+[33mdaa3a46[m !145 【修改说明 Modification】整机调度过程优化芯片进程查询关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加
+[33m8d76d46[m !135 【ascend operator】通过状态机控制ranktable保存,降低资源读写次数 Merge pull request !135 from YangLei/master
+[33m9a00f54[m !146 【修改说明】cleanCode修改 * 【修改说明】cleanCode修改
+[33m40638f6[m "fix review"
+[33mbac4805[m 【修改说明 Modification】检视意见
+[33mc7795f6[m Merge remote-tracking branch 'release/master' into faultmanager-ut
+[33m22592f8[m 【修改说明 Modification】测试一张卡上不同类型的故障确实会产品两条DeviceFault数据。
+[33mc699014[m 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志
+[33m719cf7f[m !138 优雅容错部分微重构 * 【修改说明】 * 【修改说明】 * 【修改说明】微重构 * 【修改说明】微重构
+[33mef0a55b[m 【修改说明 Modification】删除超出PR上限的代码
+[33m36a3222[m 【修改说明 Modification】合并device上的故障信息的时候,应该要根据CardUnhealthy和CardNetworkUnhealthy分类。
+[33m0ac68bf[m !143 【修改说明 Modification】dp上报的fault time 有时不存在,需要打印日志 * 【修改说明 Modification】debug fault time
+[33m9deba59[m !142 【修改说明】step重计算失败后499返回码补杀pod * fix * fix * Merge remote-tracking branch 'upstream/master' * fix * fix
+[33m7570c7a[m "patch"
+[33m8546de5[m "patch"
+[33mf868678[m "patch"
+[33m92d05f4[m "ranktable adds status for cm and file"
+[33md1666aa[m !140 【修改说明 Modification】整机全调度场景过程优化 Merge pull request !140 from wangjun/master
+[33m8edc184[m 【修改说明 Modification】faultmanager ut
+[33m4d7ad8e[m "ranktable state machine, optimize cyclomatic complexity"
+[33m8ad5ec8[m 【修改说明 Modification】整机全调度场景过程优化
+[33mce126cd[m !120 更新npu和1520故障码 Merge pull request !120 from zhoupan39/master
+[33mf3cfc86[m "ranktable state machine, optimize cyclomatic complexity"
+[33me86d8ba[m !134 【修改说明】索引为0时可以删除故障卡 Merge pull request !134 from getee0506/cqe
+[33mb400556[m Merge remote-tracking branch 'origin/master'
+[33m677df8b[m "ranktable state machine, "
+[33m9800f12[m !136 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。 Merge pull request !136 from lirui238/develop
+[33m38a6bf3[m Merge branch 'master' of gitee.com:ascend/mindxdl into master
+[33mbd963ff[m 更新npu和1520故障码
+[33mb1acb28[m "ranktable state machine, lock ranktable write process"
+[33m94362ca[m 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。
+[33m370cede[m !132 【修改说明】进程级恢复支持预刷新故障 * fix * fix
+[33mf5a39ea[m "ranktable state machine, lock ranktable write process"
+[33m9f696fa[m 【修改说明】cqe error后,隔离linkdown的卡
+[33m8a21cc5[m !117 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge branch 'gpx' of https://gitee.com/guopengxin/mindxdl into gpx * Merge https://gitee.com/guopengxin/mindxdl into gpx * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关
+[33md2be1eb[m "ranktable state machine"
+[33m56cc382[m !124 【修改说明】cleancode修改 * 【修改说明】npu-exporter适配高版本GCC编译
+[33m507cf29[m !121 noded组件依赖从npu-exporter切换到ascendcommon Merge pull request !121 from zhoupan39/dependency_change
+[33md554b6f[m !123 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 Merge pull request !123 from lirui238/develop
+[33m37ca6b8[m !126 【修改说明 Modification】HBM UCE场景支持 bug修复 * 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。
+[33ma65b81d[m !113 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡
+[33mce74fd9[m 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。
+[33mc87949c[m noded组件依赖从npu-exporter切换到ascendcommon
+[33m2c93012[m 【修改说明】clean_code修改-修改检视意见
+[33ma332b5b[m 【修改说明】clean_code修改-修改检视意见
+[33me451451[m 【修改说明】clean_code修改-锁释放避免跨函数调用
+[33mcb68971[m 【修改说明】clean_code修改-恢复
+[33m1e772c0[m support pod that has multiple containers and only one of containers has NPU
+[33mbab39e3[m fix getVirTemplate to pass golangcli-lint
+[33m977e472[m 【修改说明】clean_code修改-命名风格一致
+[33m4c1bf6e[m 【修改说明】clean_code修改-导入包避免取别名
+[33mee37d0f[m Merge branch 'master' of gitee.com:dongpeng30/mindxdl into clean_code
+[33mcfe2e49[m Merge remote-tracking branch 'upstream/master'
+[33m8487bc9[m !116 【修改说明】cleanCode修改 * 【修改说明】clean_code修改
+[33me5763b0[m "ranktable state machine"
+[33m623bdff[m Merge remote-tracking branch 'origin/clean_code' into clean_code
+[33me611f6e[m 【修改说明】clean_code修改-关闭资源、err处理
+[33m616e048[m 【修改说明】clean_code修改-避免使用全局变量
+[33mabd4fb5[m 【修改说明】clean_code修改-变量被使用时才声明并初始化
+[33md3ad121[m 【修改说明】clean_code修改-敏感字样修改
+[33mfdeec0b[m 【修改说明】clean_code修改
+[33mfd94543[m Merge remote-tracking branch 'upstream/master'
+[33m4a2e2ac[m !119 【修改说明 Modification】HBM UCE场景支持 bug修复 * 499 use exit strategy * clean code * test case * name * test case * report fault level for each event * resign processor of jobFaultRank
+[33m6deb4e6[m 【修改说明】clean_code修改-关闭资源、err处理
+[33m7aa16c2[m 【修改说明】clean_code修改-避免使用全局变量
+[33m5b0d880[m 【修改说明】clean_code修改-变量被使用时才声明并初始化
+[33m1910a8c[m 【修改说明】clean_code修改-敏感字样修改
+[33m2b8d1d8[m !110 【ascend operator】自动创建ranktable文件路径,仅支持hostpath Merge pull request !110 from YangLei/master
+[33m770af95[m "patch"
+[33m186b16d[m 【修改说明】clean_code修改
+[33m40cde25[m "patch"
+[33mb0dcc6f[m "patch"
+[33m2ba5e7f[m "patch"
+[33md89baf6[m "check directory"
+[33m4416dd2[m "patch"
+[33md60c966[m 解决冲突
+[33m7024c53[m !107 【修改说明】减少clusterd状态机锁范围 * Merge branch 'master' of gitee.com:ascend/mindxdl into lock
+[33m50e178c[m !108 【修改说明 Modification】HBM UCE场景支持 Merge pull request !108 from lirui238/device-plugin-faulttimeV2
+[33maa40c41[m clean code
+[33m1ba9644[m fault time
+[33mac47806[m "patch"
+[33m0aac697[m clean code
+[33m297f90e[m clean code
+[33m61a46ae[m 【修改说明】clean_code修改
+[33m397c6ef[m "patch"
+[33m3ed3ee4[m "patch"
+[33mc119b83[m "patch"
+[33m3864aa4[m 【修改说明】clean_code修改
+[33m7d2456f[m 【修改说明】clean_code修改-格式化代码恢复
+[33md1dc5e4[m 【修改说明】clean_code修改-格式化代码恢复
+[33maa7090b[m 【修改说明】clean_code修改-格式化代码恢复
+[33m6931594[m "patch"
+[33m790ad3d[m 【修改说明】clean_code修改-文件名不能包含大写
+[33m6f29db3[m "patch"
+[33mc5cf91b[m "patch"
+[33m11e21f9[m Merge commit 'e2b662ec'
+[33me2b662e[m 【修改说明】clean_code修改-解决冲突
+[33mf39b4be[m 【修改说明】clean_code修改-单行不超过120个字符;导出标识符要有注释
+[33md018c31[m 【修改说明】clean_code修改-恢复volcano中误删的导包
+[33mabc08a1[m Merge branch 'master' of https://gitee.com/yang-lei_1_0/mindxdl
+[33m580bd9b[m "patch"
+[33mebed08d[m Merge branch 'master' of gitee.com:ascend/mindxdl into master
+[33mbc8aaab[m 【修改说明】clean_code修改-所有导出的标识符要有注释、文件头包含版权信息、要有包注释、下标越界等
+[33m764e436[m "fix check op"
+[33mc45492e[m clean code
+[33mc59a49d[m !76 npu-exporter公共代码提取 Merge pull request !76 from zhoupan39/master
+[33m6e86fe4[m 【修改说明】clean_code修改-G.CMT.01 文件头注释必须包含版权说明、G.CMT.02 每个包都应该有包注释
+[33m6294352[m fault time
+[33m5db26dd[m 【修改说明】clean_code修改-所有go文件格式化
+[33m0da9bb3[m build_all.sh脚本执行过程跳过编译ascend-common组件
+[33mcfc9487[m fault time
+[33mc44a17d[m marshal
+[33m0e677df[m !114 【修改说明】dp处于热复位时忽略1520故障 Merge pull request !114 from fengjianqing/sw
+[33m126be37[m !111 修复pod缓存更新错误的问题 * 【修改说明】pod缓存更新错误问题修复
+[33m46e8162[m "patch"
+[33m985d759[m 【修改说明】dp处于热复位时忽略1520故障
+[33m8c17885[m !112 【修改说明 Modification】不处理不使用NPU卡的任务 Merge pull request !112 from Atlas_zxp/master
+[33m7086cf4[m "patch"
+[33mf9c32de[m log
+[33m0eace61[m 【修改说明】clean_code修改
+[33md2f39b5[m 修改readme描述
+[33m34a9af6[m 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m9e205f8[m "patch"
+[33m7faffdc[m "patch"
+[33med793e7[m !109 npu-exporter、dp适配高版本gcc编译 * 【修改说明】device-plugin适配高版本GCC编译 * 【修改说明】npu-exporter适配高版本GCC编译
+[33m7e662e6[m "patch"
+[33m8a566b2[m 修改readme描述
+[33m58019b2[m add 310p
+[33m1918bd0[m npu-exporter公共代码提取
+[33m20d43cc[m 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m4cfa7d1[m "patch"
+[33mc611a9e[m "patch"
+[33m3ecdeb0[m Merge remote-tracking branch 'release/master' into device-plugin-faulttimeV2
+[33m15e57ea[m "auto mkdir for ranktable file"
+[33maba84f6[m 【修改说明】device-plugin适配高版本GCC编译
+[33m8e48397[m 【修改说明】npu-exporter适配高版本GCC编译
+[33mf2d6f75[m log
+[33m788f844[m provide getJobFaultRankInfosFilterLevel for state-machine
+[33m2abc957[m device-plugin report all fault time
+[33mc2839d0[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
+[33m32fa373[m remove fault time report
+[33made4aee[m !96 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障
+[33mcae72e5[m !88 【修改说明 Modification】clusterd&master pod svc ip获取优化 Merge pull request !88 from 李鸣沼/log-fix
+[33mc1943c4[m device-plugin report all fault time
+[33ma5016f5[m !106 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !106 from lirui238/bug-fix
+[33m832fb08[m bug fix
+[33mdeb72e0[m !77 【修改说明 Modification】deployment任务适配superPod Merge pull request !77 from Atlas_zxp/master
+[33mc424d5c[m 【修改说明】clusterd&master pod svc ip获取优化
+[33m3f3f057[m !103 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !103 from lirui238/uce-bug
+[33mec1d287[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m12dcd8c[m log readable
+[33mc35b2ba[m bug fix
+[33m955aabb[m !101 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !101 from lirui238/uce-bug
+[33m17d12d7[m split commit pr3
+[33md7da38f[m !99 【修改说明】AI平台相关代码已经grpc service代码合入 * AI平台相关代码已经grpc service代码合入
+[33mc5ce5a9[m !95 【修改说明 Modification】HBM UCE场景支持 PR3 Merge pull request !95 from lirui238/uce
+[33m45ece41[m split commit pr3
+[33mc7fb148[m split commit pr3
+[33m24c6e01[m Merge branch 'master' into uce-pr1
+[33m2542038[m split commit pr3
+[33meae098b[m !94 【修改说明】90pr拆分部分代码合入 * fix
+[33m1b6408a[m !90 【修改说明】进程级恢复主逻辑controller代码 * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * change max line length * fix * add main process recover logic
+[33mbb9e397[m !92 【修改说明 Modification】HBM UCE场景支持 Pr2 * split commit pr2 * Merge branch 'master' into uce-pr1 * split commit pr2 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete
+[33maf5d7a5[m split commit pr2
+[33m8866943[m Merge branch 'master' into uce-pr1
+[33m7946f8f[m split commit pr2
+[33mb9a9049[m !83 【修改说明 Modification】HBM UCE支撑 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete
+[33m1a0cc58[m split commit pr1
+[33me1a0ca3[m Merge remote-tracking branch 'origin/master' into uce
+[33mef6c0de[m all test commit
+[33m03bab58[m Restore Volcano Changes
+[33m5f5e64c[m debug: channel buffer and processLimit
+[33m35baf95[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
+[33m16c3dd4[m !87 【修改说明】进程级恢复重构需求合入基础数据类型以及common utils相关代码 * fix * fix * fix * submit base code
+[33m89b08b4[m "patch"
+[33mec48820[m Merge remote-tracking branch 'origin/master' into log-fix
+[33mfcda9ae[m "add env for rescheduling"
+[33m879ad59[m 【修改说明】clusterd&master pod svc ip获取优化
+[33m3380de4[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
+[33m00ac169[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33me3bf498[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m1a0e466[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m18ecab2[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m0871be3[m judge job is uce
+[33m237ae8b[m refactor and pass test
+[33mcea9810[m !80 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片
+[33m9755444[m !79 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改检视意见 * 【修改说明】修改检视意见 * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】hwlog增加重复打印限制 * 【修改说明】dt * 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次
+[33md20a7a3[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m42c4ff9[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m61c7fde[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m99657c3[m refactor
+[33mada6c17[m refactor
+[33m98c0583[m delete test
+[33mef2f60d[m Merge branch 'master' into uce
+[33m9c5d910[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m6328dce[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m4dc306f[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mc6cbc1e[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33md86fbe1[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m6959b2f[m micro refactor
+[33m450cde8[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mc609418[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m5cc9169[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mb6179fc[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m3ecc3c2[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m86a815c[m !74 【修改说明 Modification】减少clusterD中锁的粒度 * 降低所有锁的粒度,防止锁嵌套
+[33m1d1ce9a[m Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl
+[33m932a8db[m log + job fault rank processor test
+[33m0f58d1f[m split device faults
+[33m90f0fc3[m package refactor
+[33m94c4c34[m informer+jobFaultRankList
+[33mac2d319[m !72 【ascend operator】支持configmap和共享文件同时存在 Merge pull request !72 from YangLei/cm_file
+[33m6bd5bef[m "patch"
+[33mcf4a1bb[m "patch"
+[33m8a2fd50[m !73 【ascend operator】configmap增加version字段,用于热复位 * "timestamp as version" * "add version to configmap"
+[33m6333778[m "patch"
+[33mc3a5b10[m !69 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次
+[33m64ac46d[m "patch"
+[33mffbdb51[m "timestamp as version"
+[33mb20c6d6[m "patch"
+[33mf90c2d0[m "add version to configmap"
+[33m5ce24fe[m "configmap and file both exist"
+[33mf4c581e[m !71 【Ascend operator】operator支持mindspore使用ranktable Merge pull request !71 from YangLei/master
+[33m6c166a9[m Merge branch 'master' into uce
+[33m176d153[m corrent time error
+[33m218aae0[m "not use npu log"
+[33m9b03758[m "mindspore ranktable 02"
+[33me6f3a58[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
+[33ma471295[m !55 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题 Merge pull request !55 from 李鸣沼/log-fix
+[33m64bbce7[m !59 noded支持NPU MCE/AER故障上报 * 【修改说明】noded支持NPU MCE/AER故障上报
+[33mc6f8fd7[m uce accompany fault (aic aiv) processor, test pass
+[33m9176cdc[m 【修改说明】修复关键日志被截断问题
+[33m2b525b6[m mindio report callback only report jobid rankid; uce fault code=80E01801
+[33m79d7636[m !60 operator支持vcjob重调度 * "vcjob rescheduling"
+[33ma37967f[m "patch"
+[33mf074bdb[m "patch"
+[33m6c55524[m "patch"
+[33m927db7e[m "rename import"
+[33mff11b80[m "patch"
+[33m1ca72fc[m "new file"
+[33m5501637[m "patch"
+[33mb52345e[m "patch"
+[33mb5861d0[m device plugin report fault time
+[33m32615f2[m "patch"
+[33m7434c74[m "patch"
+[33m19d8d76[m "delete hccl.json"
+[33m9985d56[m "patch"
+[33m121e188[m "patch"
+[33mb226dba[m "check status"
+[33m3ef86fd[m second complete, test pass
+[33me0bea3e[m "patch"
+[33md8cdc06[m "patch"
+[33mdf3315c[m "patch"
+[33ma30d2c8[m "vcjob rescheduling"
+[33m5daeaf2[m !57 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod * 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod
+[33m31064f3[m !53 hccl controller收编 * rkt for tensorFlow and MIndSpore
+[33maea1992[m !41 operator支持mindspore使用ranktable Merge pull request !41 from YangLei/master
+[33m17486e8[m Merge branch 'master' of gitee.com:ascend/mindxdl into hostIp
+[33m0d7b6b0[m Merge branch 'master' of gitee.com:ascend/mindxdl into hccl
+[33m69e9751[m !32 展示最近的重调度记录 * 获取最近10条重调度记录
+[33mfaf93a9[m !44 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 Merge pull request !44 from wangjun/master
+[33mb6fdada[m 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33me051c2b[m 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33m18289e0[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33mc5c66ce[m "fix codeCheck"
+[33m249498d[m "acjob save configmap"
+[33m798fac7[m "patch"
+[33mb6ba244[m "configmap key"
+[33m523deb9[m "patch"
+[33m13d3e41[m "const for get pod"
+[33m18ef494[m !49 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片 * 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片
+[33m676ff42[m 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题
+[33m278dc87[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33m4c73f52[m !54 修改raedme及构建脚本 Merge pull request !54 from luxiang6/comm_repo
+[33m244c30f[m "decimal const"
+[33mf6f3c05[m "add consts"
+[33m28d4024[m "patch"
+[33mcacb9dc[m "patch"
+[33m5e0c92e[m "patch"
+[33md618f16[m "patch"
+[33m649dd57[m "patch"
+[33mb38488e[m "patch"
+[33ma5f388c[m "write rank index patch"
+[33m28630bf[m "get rankIndex for deploy"
+[33m0933676[m "decorate deployment"
+[33m5b31631[m "ckeck replicas len"
+[33me2c9aa4[m "add clusterRole for deploy"
+[33mf7a8159[m "watch deployment"
+[33me807149[m "patch"
+[33md2188be[m "add interface ToString() "
+[33m3a04cc2[m "ranktablepipeline"
+[33mb71d098[m !52 【修改说明】修复重调度,误删mindspore的scheduler的pod * 【修改说明】修复重调度,误删mindspore的scheduler的pod
+[33mcdc4dd8[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33mbdab850[m readme&构建脚本修改
+[33m2e2c094[m "patch"
+[33m6ed0927[m "patch"
+[33m303b837[m first complete
+[33m7a3c89c[m "patch for vcjob config map"
+[33m3a3bb50[m "add scheme fof vcjob and deploy"
+[33m890da10[m "vcjob write configmap"
+[33mbf28f87[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33m676e215[m "bad import "
+[33m737cabd[m "backoff to master"
+[33m340d9d8[m "merge hccl for vcjob with hccl.json mount"
+[33m034c862[m "test branch"
+[33m92a972e[m !51 【修改说明】clusterd 适配x1平台volcano1.2 pgName不能由jobName+jobId拼凑的问题 * fix * fix * fix * fix * separate jobid pgid jobname pgname
+[33m49d57c4[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33mbf1c634[m "patch"
+[33mad7931d[m !50 【修改说明】dp修复动态切分不上报卡故障 Merge pull request !50 from fengjianqing/master
+[33m0e215b8[m 【修改说明】dp修复动态切分不上报卡故障
+[33m7075415[m "not add pod without rkt"
+[33m46ec172[m "rename const"
+[33m66f9d0c[m "func podUseNpu"
+[33m76f2c51[m "operator for mindspore ranktable"
+[33mb6a5215[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
+[33mf9ea22a[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33m20670e2[m !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix * fix * fix
+[33mf1ed8f9[m !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix
+[33md54616d[m !48 【修改说明】npu-exporter 增加LargelimitListener功能 * fix code * fix * add large listener
+[33m3d7ed6d[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33m54dca92[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33mfb258d1[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
+[33m34c516e[m !39 【修改说明】clusterd 修复AI平台对接相关逻辑(stopComplete后再写confirmfault, 更新恢复结果annotation以实际选择的最后策略为准) * fix platform logic
+[33m37f6105[m !40 【修改说明】clusterd限制支持节点数和作业个数,从而限制cmManager大小和bsWorker大小 Merge pull request !40 from tiankaijin/dts862
+[33me5e4282[m !43 加固clusterd容器安全配置 Merge pull request !43 from weihaoran/clusterd_yaml
+[33m5fb9645[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
+[33mdd70325[m !45 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 * 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
+[33mb68b3a6[m !23 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户
+[33m80c3784[m !42 【修改说明】调整clusterd pod增删改时日志记录级别 * 【修改说明】刷屏日志调整
+[33m11ac7c5[m !33 dp最小级修复 * 最小集检测修复
+[33m29f386a[m 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mffd017b[m fix
+[33md36fb00[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
+[33m1ec752b[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
+[33mc2f3419[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
+[33m90451fe[m Revert "【修改说明】调整clsterd pod增删改时日志记录级别"
+[33m7037777[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
+[33mea04af4[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
+[33m816d146[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
+[33mcf377b1[m fix
+[33md05bc65[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
+[33m4197792[m 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33me54e02d[m fix
+[33mceb4668[m 【修改说明】加固clusterd容器安全配置
+[33m211d0f7[m fix
+[33mdd14c42[m 【修改说明】调整clsterd pod增删改时日志记录级别
+[33m2b44d18[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
+[33m60be355[m !37 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 Merge pull request !37 from lirui238/seccomp-config
+[33m11f92f3[m 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 【修改人 Modifier】lirui238 【评审人 Reviewer】luxiang6
+[33m1ef69b6[m fix
+[33md2d72a2[m limit bsworker and cmManager length
+[33me868818[m rkt for tensorFlow and MIndSpore
+[33m6726f95[m !36 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 Merge pull request !36 from Atlas_zxp/delete-x11
+[33m68713dc[m !38 【修改说明】clusterd grpc支持限制qps Merge pull request !38 from tiankaijin/qps_limit
+[33m903da2f[m 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33mc73824f[m fix
+[33md22ff75[m fix
+[33m66316bc[m fix
+[33m32efd82[m fix
+[33m5c05ee0[m !34 【修改说明】cluster grpc支持资源清理和注册校验 Merge pull request !34 from tiankaijin/clean_grpc_resource
+[33m7be3e1e[m 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m5023a52[m fix
+[33ma45fb68[m fix
+[33m7e8d55b[m !35 【修改说明】进程级回复增加等待调度时间 Merge pull request !35 from tiankaijin/wait_pg_running
+[33mb341094[m fix
+[33m7e6e8ba[m !31 优化clusterd权限 Merge pull request !31 from weihaoran/clusterd_user
+[33m347dbca[m fix
+[33m633ebd4[m fix
+[33ma7e99f6[m !18 1520故障码映射同步修改 * 同步rc3修改
+[33me7d09de[m 【修改说明】优化clusterd权限
+[33mb3fa1aa[m cleancode魔鬼数字修改
+[33mfac229f[m !30 【修改说明】修复clusterd 全0监听问题 * fix zero listen
+[33mca16ec6[m cleancode
+[33md9ca767[m cleancode
+[33m5ebef89[m !29 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token Merge pull request !29 from Atlas_zxp/delete-token
+[33mb2de16f[m 同步rc3修改
+[33m1537f58[m 修改cleancode
+[33m21aeb40[m 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m2aa7824[m !26 开启N秒快恢功能,单独发生80CB8009故障,故障不上报 Merge pull request !26 from zhoupan39/master
+[33mc4c7d6c[m !25 【修改说明】pytorch 优雅退出参数和 ms 保持一致 Merge pull request !25 from tiankaijin/tkj_volcano
+[33mb4ba48c[m !28 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题 * 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题
+[33m513a62a[m !27 修改clusterd默认日志文件 Merge pull request !27 from weihaoran/clusterd_log
+[33mbd1d800[m 【修改说明】修改clusterd默认日志文件
+[33mb5e31de[m 【修改说明】修改clusterd默认日志文件
+[33med9bdfe[m !19 【修改说明 Modification】更新统一编译说明及build脚本 * update build
+[33m5fbec6e[m 保持pt和ms框架优雅退出参数名一致
+[33maaf6bc5[m 开启N秒快恢功能,单独发生8009故障,故障不上报
+[33md949dab[m !22 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED
+[33m89d2331[m !21 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦
+[33mcc8fc2e[m !17 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 Merge pull request !17 from Atlas_zxp/master
+[33m2bb58fb[m !16 指标对齐 * 【修改说明】telegraf增加currentFreq、voltage采集、进程信息采集;修改promethus中errorCode上报方式…
+[33m31aeda9[m !20 /var/queue_schedule添加白名单 Merge pull request !20 from YangLei/master
+[33m70b72d2[m add /var/queue_schedule to whitelist
+[33mb3be6aa[m !14 修改clusterd默认用户 * 【修改说明】修改clusterd默认用户
+[33mc44e28f[m !15 修复clusterd空指针解引用问题 Merge pull request !15 from weihaoran/clusterd_panic
+[33mb99ad79[m 新仓同步修改
+[33mcb3cc9d[m !10 增加挂载路径适配HDK升级24.1.RC2 Merge pull request !10 from YangLei/master
+[33m12315f7[m !11 【修改说明 Modification】volcano代码同步 * 【修改说明 Modification】volcano代码同步
+[33meb05dca[m !9 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时 * 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时
+[33mcac43db[m !12 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦
+[33m88db0ce[m 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
+[33m7cd0929[m !13 同步分支代码 Merge pull request !13 from luxiang6/sync_code
+[33m97ea507[m 【修改说明】修复空指针解引用问题
+[33mb9b8e81[m 同步代码
+[33mefd9df8[m add mount path /var/queue_schedule
+[33m67c464e[m !8 【修改说明 Modification】clusterd更新readme及build Merge pull request !8 from chentian/master
+[33m891aca4[m Merge branch 'master' of gitee.com:chentian007/mindxdl
+[33mf7fd266[m update clusterd readme
+[33mc59600e[m update clusterd readme
+[33me21cb07[m update clusterd readme
+[33m64763b3[m update clusterd build
+[33m2147533[m !5 【修改说明 Modification】clusterd代码合并及统一构建出包build脚本 * add build_all.sh * 新增clusterd组件
+[33m81e7ef3[m fix codecheck
+[33m53dc253[m update
+[33mecbc82d[m add build
+[33m711c366[m fix clusterd DT bug
+[33ma2e3d9c[m fix cleancode bug
+[33m1d19ddc[m fix cleancode bug
+[33mcfe591b[m add build
+[33m9b10496[m add build
+[33m367e094[m add build
+[33m7f6ee55[m add build
+[33m90096d3[m add build_all.sh
+[33mdde9e35[m 新增clusterd组件
+[33m9445198[m 新增clusterd组件
+[33ma2ee6e7[m 新增clusterd组件
+[33med4978e[m 新增clusterd组件
+[33me57db23[m 新增clusterd组件
+[33m47f496c[m 新增clusterd组件
+[33maa01a34[m 新增clusterd组件
+[33mf88bd27[m !4 代码仓归一+cleancode整改 Merge pull request !4 from luxiang6/cleancode
+[33m582a3c6[m Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode
+[33m8aead81[m update OWNERS.
+[33m5016570[m cleancode修改
+[33m7dddf8a[m cleancode修改
+[33m3617bf5[m cleancode修改
+[33me95fdbf[m cleancode修改
+[33m2ca5b7c[m Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode
+[33m67918d2[m update OWNERS.
+[33m3997739[m cleancode修改
+[33mcf27c77[m cleancode修改
+[33m149b8f9[m Merge branch 'master' of gitee.com:ascend/mindxdl into master
+[33ma12accf[m add OWNERS.
+[33m4546883[m 代码仓归一
+[33ma40d318[m 代码仓归一
+[33md894bbc[m 代码仓归一
+[33m57f1d8e[m 代码仓归一
+[33m3ed63d6[m 代码仓归一
+[33m7dcd4fa[m 代码仓归一
+[33m53101e6[m 代码仓归一
+[33m4405b33[m[33m ([m[1;33mtag: v6.0.0-RC2[m[33m, [m[1;33mtag: v6.0.0-RC1[m[33m, [m[1;33mtag: v5.0.1[m[33m, [m[1;33mtag: v5.0.0[m[33m)[m Initial commit
--
Gitee
From bc24524335ffda90ad30cc0c3259f816fba51b98 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Wed, 9 Apr 2025 09:45:25 +0800
Subject: [PATCH 02/14] =?UTF-8?q?=E8=BF=AD=E4=BB=A3=E4=B8=80=E9=9C=80?=
=?UTF-8?q?=E6=B1=82?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
.../pkg/server/manager.go | 30 +++++++------------
.../clusterd/pkg/common/constant/constants.go | 2 +-
component/noded/main.go | 2 +-
.../reporter/cmreporter/configmap_reporter.go | 3 +-
.../noded/pkg/reporter/reporter_manager.go | 2 +-
5 files changed, 14 insertions(+), 25 deletions(-)
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 90d84403b..65970d138 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -28,7 +28,7 @@ import (
"github.com/containerd/containerd"
"github.com/fsnotify/fsnotify"
- "k8s.io/api/core/v1"
+ v1 "k8s.io/api/core/v1"
"k8s.io/apimachinery/pkg/util/wait"
"k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1"
@@ -401,17 +401,17 @@ func (hdm *HwDevManager) separateNPUIDFromDeviceInfoIntoCache() {
func (hdm *HwDevManager) handleDeviceInfoUpdate(initTime *time.Time) {
common.LockAllDeviceInfo()
defer common.UnlockAllDeviceInfo()
-
+
if err := hdm.updateAllInfo(); err != nil {
hwlog.RunLog.Error(err)
return
}
-
+
// complete the fault codes that cannot be reported by the event subscribe interface
hdm.mendSubscribeFaultEvents()
hdm.updateDeviceUsedInfo(hdm.groupDevice)
hdm.notifyToK8s(initTime)
-
+
// if node annotation has reset fail devices but all devices are healthy, clear node annotation
hdm.checkNodeResetInfo()
hdm.useVolcanoNotify()
@@ -437,27 +437,14 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
if common.ParamOption.CheckCachedPods {
go hdm.manager.GetKubeClient().PodInformerInspector(ctx)
}
-
+
initTime := time.Now()
ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
defer ticker.Stop()
-
+
// 使用全局故障触发通道
faultTrigger := common.GetFaultTriggerChan()
-
- // 启动故障监听goroutine
- go func() {
- for {
- select {
- case <-ctx.Done():
- return
- case <-faultTrigger:
- hwlog.RunLog.Info("Received fault trigger, processing device info update")
- hdm.handleDeviceInfoUpdate(&initTime)
- }
- }
- }()
-
+
for {
select {
case _, ok := <-ctx.Done():
@@ -466,6 +453,9 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
}
hwlog.RunLog.Info("listen device stop")
return
+ case <-faultTrigger:
+ hwlog.RunLog.Info("Received fault trigger, processing device info update")
+ hdm.handleDeviceInfoUpdate(&initTime)
case <-ticker.C:
hwlog.RunLog.Debug("Periodic device info update")
hdm.handleDeviceInfoUpdate(&initTime)
diff --git a/component/clusterd/pkg/common/constant/constants.go b/component/clusterd/pkg/common/constant/constants.go
index 87b49693f..971421367 100644
--- a/component/clusterd/pkg/common/constant/constants.go
+++ b/component/clusterd/pkg/common/constant/constants.go
@@ -80,7 +80,7 @@ const (
JobReportRecoverTimeout = 10 * 1000
JobReportInfoExpiredTimeout = 10 * 1000
JobReportCompleteTimeout = 30 * 1000
- FaultCenterProcessPeriod = 3 * 1000
+ FaultCenterProcessPeriod = 1 * 1000
MaxFaultCenterSubscriber = 10
UnknownFaultTime = -1
)
diff --git a/component/noded/main.go b/component/noded/main.go
index 9a635f8f3..73fcb8de7 100644
--- a/component/noded/main.go
+++ b/component/noded/main.go
@@ -35,7 +35,7 @@ import (
const (
defaultLogFile = "/var/log/mindx-dl/noded/noded.log"
// defaultHeatBeatInterval is the default report interval
- defaultReportInterval = 5
+ defaultReportInterval = 1
// defaultMonitorPeriod is the default plugin monitor period
defaultMonitorPeriod = 60
// maxReportInterval is the max report interval
diff --git a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go
index 0daa64423..0bd4b4c08 100644
--- a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go
+++ b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go
@@ -48,8 +48,7 @@ func NewConfigMapReporter(client *kubeclient.ClientK8s) *ConfigMapReporter {
// Report send fault device info by config map
func (c *ConfigMapReporter) Report(faultDevInfo *common.FaultDevInfo) {
- if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) &&
- time.Since(c.reportTime) < defaultReportInterval {
+ if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) {
hwlog.RunLog.Debugf("node fault device info is not changed and report time is not reached, no need to report")
return
}
diff --git a/component/noded/pkg/reporter/reporter_manager.go b/component/noded/pkg/reporter/reporter_manager.go
index f1de7892c..d088314d3 100644
--- a/component/noded/pkg/reporter/reporter_manager.go
+++ b/component/noded/pkg/reporter/reporter_manager.go
@@ -62,7 +62,7 @@ func (r *ReportManager) Init() error {
func (r *ReportManager) Execute(faultDevInfo *common.FaultDevInfo) {
r.faultManager.SetFaultDevInfo(faultDevInfo)
for _, reporter := range r.reporters {
- go reporter.Report(faultDevInfo)
+ reporter.Report(faultDevInfo)
}
}
--
Gitee
From 237b2dcef333d6f7d6ef3a7c765a6806be8631f0 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Wed, 9 Apr 2025 09:57:51 +0800
Subject: [PATCH 03/14] delete verbose
---
.idea/mind-cluster-latest.iml | 4 -
.idea/vcs.xml | 6 -
.idea/workspace.xml | 124 ----
q | 1069 ---------------------------------
4 files changed, 1203 deletions(-)
delete mode 100644 .idea/mind-cluster-latest.iml
delete mode 100644 .idea/vcs.xml
delete mode 100644 .idea/workspace.xml
delete mode 100644 q
diff --git a/.idea/mind-cluster-latest.iml b/.idea/mind-cluster-latest.iml
deleted file mode 100644
index 7ee078df7..000000000
--- a/.idea/mind-cluster-latest.iml
+++ /dev/null
@@ -1,4 +0,0 @@
-
-
-
-
\ No newline at end of file
diff --git a/.idea/vcs.xml b/.idea/vcs.xml
deleted file mode 100644
index 35eb1ddfb..000000000
--- a/.idea/vcs.xml
+++ /dev/null
@@ -1,6 +0,0 @@
-
-
-
-
-
-
\ No newline at end of file
diff --git a/.idea/workspace.xml b/.idea/workspace.xml
deleted file mode 100644
index 6abc2affa..000000000
--- a/.idea/workspace.xml
+++ /dev/null
@@ -1,124 +0,0 @@
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- {
- "associatedIndex": 1
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- true
-
-
\ No newline at end of file
diff --git a/q b/q
deleted file mode 100644
index 5724fd421..000000000
--- a/q
+++ /dev/null
@@ -1,1069 +0,0 @@
-[33ma7a1768[m[33m ([m[1;36mHEAD -> [m[1;32mbugfix[m[33m, [m[1;31morigin/bugfix[m[33m)[m 优化日志刷屏;优化写k8s次数
-[33m6448c80[m[33m ([m[1;31morigin/master[m[33m, [m[1;32mmaster[m[33m)[m runtime dt 3
-[33ma7fa270[m runtime dt2
-[33md72a9df[m[33m ([m[1;32mruntimedt[m[33m)[m 【docker runtime】DT
-[33m0a0ccb3[m[33m ([m[1;31mupstream/master[m[33m)[m !613 【volcano】【修改说明】volcano重构--增加vnpu处理模块 * 【volcano】【修改说明】volcano重构--调度流程调用修改
-[33mdbde074[m !564 【volcano】【修改说明】volcano重构--volcano调度整体调用流程变更 * 【volcano】【修改说明】volcano重构--调度流程调用修改
-[33mdc97cf1[m !602 【ascend-device-plugin】【修改说明】刷新故障码 * 【ascend-device-plugin】【修改说明】刷新故障码
-[33m579f3d4[m !518 【ascend-device-plugin】【修改说明】add DP DT Merge pull request !518 from zhoupan39/add_dp_dt1
-[33m260fbbc[m !610 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复 Merge pull request !610 from wangjun/dp_bugfix
-[33m48c4d91[m !615 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码
-[33mdb6f745[m !609 【clusterd】【修改说明】公共故障测试代码 * 【clusterd】【修改说明】公共故障测试代码
-[33m0fd4a64[m 【device-plugin】【修改说明】通过ASCEND_VISIBLE_DEVICES识别容器占用芯片情况不应解析多个ASCEND_VISIBLE_DEVICES问题修复
-[33m349a59a[m 【ascend-device-plugin】【修改说明】修改魔鬼数
-[33m6c5e79b[m !605 bugfix: 扫描后未去掉等待三方标记 * bugfix: 扫描后未去掉等待三方标记
-[33m8b4de93[m !611 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起 * 【修改说明】【taskD】pod重调度,先停止controller,再等待worker进程拉起
-[33m2a2595b[m 【ascend-device-plugin】【修改说明】add DP DT
-[33mf2112ad[m !601 【nodeD】【pingmesh】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 Merge pull request !601 from Atlas_zxp/master
-[33m928fd4c[m !598 【clusterd】【修改说明】公共故障配置文件加载日志优化 * 【clusterd】【修改说明】公共故障配置文件加载日志优化
-[33m93e252a[m !597 【修改说明】【ClusterD】补充util package dt用例 && 删除util package未使用函数 * 【ClusterD】补充util package dt用例 && 删除util package未使用函数
-[33m2afba34[m !599 确保执行复位才标记busy,防止走不到复位 * 确保执行复位才标记busy,防止走不到复位
-[33ma9303fa[m 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33md57bf98[m 【修改说明 Modification】无论故障状态是否发生变化,将当前状态进行缓存;解析故障configmap失败,忽略其记录的故障 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mc5fdd1d[m !593 bugfix: 节点信息每次复位被清除 * bugfix: return when get phyID error * bugfix: 重复检查canResetDevice * fix cleancode * fix DT * fix review * 防止掉卡场景多次复位 * fix dt * 修复,获取设备状态异常 * fix DT * 防止多次触发该更新标签;设备信息去重 * 仅为A3设备添加关联ID * bugfix: 节点信息每次复位被清除 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修复DT * 【ascend device plugin】修改函数名 * 【ascend device plugin】A3复位后的处理逻辑和之前保持一致 * 【ascend device plugin】A3按最小粒度检查是否恢复
-[33mfa886f5[m !594 【clusterd】【修改说明】添加公共故障配置文件校验及故障数量上限 * 【clusterd】【修改说明】公共故障配置文件校验及故障上限添加
-[33maed3cab[m !585 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复 Merge pull request !585 from wangjun/dp_bugfix
-[33m46e76ab[m !591 【修改说明 Modification】如果没有收集到数据,认为卡状态未知,handler初始化失败时不加入结果处理队列 Merge pull request !591 from Atlas_zxp/master
-[33mda0556f[m !575 微重构-调整方法位置 * 微重构-调整方法位置 * Merge remote-tracking branch 'origin/volcano' into volcano * 微重构-调整方法位置 * 微重构-调整方法位置 * DT测试 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * DT测试
-[33m1ab919a[m !595 【修改说明】【ClusterD】pingmesh 日志优化 * fix log
-[33md1d27fa[m !590 [npu-exporter]logger简化调用方式 * [npu-exporter]logger优化
-[33m851e9b9[m !589 [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言 * [clusterd]进程级重调度平台场景等待ranktable失败时,直接保存临终遗言
-[33m3e12a68[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mf1cf749[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mcd5dc47[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m0dabcea[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mcb8d719[m 【修改说明 Modification】如果没有收集到数据,认为卡状态未知 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m6682dde[m 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复
-[33mb3b1222[m 【修改说明 Modification】DT 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33ma480908[m 【device-plugin】【修改说明】进程级恢复,芯片故障恢复后kubelet可使用芯片数量未更新问题修复
-[33m4d6b01f[m[33m ([m[1;33mtag: v7.0.RC1.B050[m[33m)[m !583 taskd monitor第三部分 * profiling taskd业务代码
-[33m434f0f3[m !582 profiling taskd monitor第二部分 * profiling taskd业务代码
-[33m9a044ad[m !546 profiling taskd业务代码 * profiling taskd业务代码
-[33md884a37[m !548 profiling dp-clusterd相关功能 * profiling dp-clusterd相关功能
-[33m82edf4a[m !580 【nodeD】【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 * 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改
-[33m5d8b796[m !579 【ascend device plugin】带外复位逻辑完善 * 【ascend device plugin】A3按最小粒度检查是否恢复
-[33mf8899d6[m 【修改说明 Modification】调整结果故障判定逻辑,不支持的驱动版本故障码修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mf636402[m !560 【修改说明】【ClusterD】超节点设备信息发布逻辑 * fix * fix comment * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * fix comment * fix dt * fix * fix * clean code * add node event func * init pingmesh application
-[33m9b63373[m !573 【修改说明】【clusterD】优化任务信息处理逻辑,CM字段 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计
-[33m0e7cc75[m !576 【clusterd】【修改说明】日志及字段优化 * 【clusterd】【修改说明】日志及字段优化
-[33m5f3fd2b[m !569 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度 Merge pull request !569 from YangLei/master
-[33mac98fc0[m 【ascend device plugin】修改DT
-[33mb50b76c[m 【ascend device plugin】修改DT
-[33mbae72e4[m 【ascend device plugin】修改检视
-[33m2393616[m 【ascend device plugin】修改检视
-[33m8af3b82[m !567 【修改说明 Modification】存在未回复的ping,忽略该次结果 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】pingmesh用户配置文件 * 【修改说明 Modification】存在未回复的ping,忽略该次结果
-[33m75852a4[m !570 【volcano】【修改说明】volcano重构--日志调整 * 【volcano】【修改说明】volcano重构--日志调整
-[33mb46889d[m !536 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块
-[33m5c1f838[m !563 【volcano】【修改说明】volcano重构--test用例补充 * 【volcano】【修改说明】volcano重构--test用例修改 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块
-[33m2fbab58[m !568 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息 * 【ascend-device-plugin】【修改说明】1520故障为空时不打印故障信息
-[33m41e7609[m !558 【ascend-device-plugin】【修改说明】yaml挂载localtime * 【ascend-device-plugin】【修改说明】yaml挂载localtime
-[33m153d7dd[m !559 【taskd】【修改说明】设置构建包版本 * 【taskd】【修改说明】设置构建包版本
-[33m78dea97[m[33m ([m[1;32mdev[m[33m)[m 【ascend device plugin】1.扫描三方复位芯片 2.A3在线复位粒度
-[33mad18d17[m Merge branch 'master' of https://gitee.com/ascend/mind-cluster
-[33m0e1df89[m !550 【ascend device plugin】离线复位适配带外,推理复位写节点注释 * 【ascend device plugin】修改DT * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修复DT问题 * 【ascend device plugin】修改检视 * 【ascend device plugin】补充DT * 【ascend device plugin】修复DT报错 * 【ascend device plugin】离线复位适配带外,推理复位写节点注释
-[33m70bf2e3[m 【ascend device plugin】修改DT
-[33ma6fa251[m !565 【修改说明】【clusterD】支持指标统计,DT代码上库 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into dt_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计
-[33mc849110[m !547 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into new_tongji * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计 * 【修改说明】【clusterD】MTTR、MTBF统计
-[33mc8943af[m 【ascend device plugin】修复DT问题
-[33m14f90ac[m 【ascend device plugin】修复DT问题
-[33me00dd9a[m 【ascend device plugin】修复DT问题
-[33m8949e83[m 【ascend device plugin】修改检视
-[33m93ec0a6[m !562 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】pingmesh主逻辑 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
-[33m954df6e[m !551 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块 * 【volcano】【修改说明】volcano重构--提取configmap Informer模块
-[33mf857455[m !530 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】stop chan 判空 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
-[33m073ccd2[m !561 【device-plugin】【修改说明】dp增加kubelet重注册机制 * re register to kubelet when connect failed
-[33mfc4dacd[m !555 1. 【clusterd】【修改说明】修复clusterd启动后存在5min功能异常问题 * 【clusterd】【修改说明】新增统计分析故障维度模块 * 【clusterd】【修改说明】新增统计分析故障维度模块
-[33m890ef45[m !557 【clusterd】【修改说明】对外展示公共故障时间戳单位为秒 * 【clusterd】【修改说明】对外展示公共故障时间戳为秒
-[33maa11a44[m !554 telegraf增加vnpu相关指标 * fix * fix * fix * fix * fix * [npu-exporter]telegraf上报vnpu * [npu-exporter]telegraf上报vnpu * [npu-exporter]调整telegraf更新接口 * [npu-exporter]调整一下vnpu相关 * [npu-exporter]容器相关指标调整
-[33mf9cb3a2[m !553 【device plugin】recovertimeout范围修改 * 【修改说明】recovertimeout范围修改
-[33mfd8de06[m 【ascend device plugin】补充DT
-[33mb4dfee0[m !508 【taskd】 cleancode python文件缩进格式及空行修改 Merge pull request !508 from 郭鹏鑫/master
-[33m2cd965e[m taskd cleancode 文件单双引号统一
-[33m6ccd629[m Revert "taskd cleancode DT构建失败修改"
-[33md0f94fd[m !545 【volcano】【修改说明】volcano重构--数据初始化模块优化 Merge pull request !545 from fengjianqing/vnpu
-[33m125ffeb[m taskd cleancode DT构建失败修改
-[33m56f81c9[m !533 【device-plugin】【修改说明】node annotation 增加超节点id信息 * add super node id info on node annotation
-[33mf78b7f5[m !532 【clusterd】【修改说明】domain层维护超节点设备信息 * change superNode to superPod
-[33m1a5271e[m Merge branch 'master' into cleancode
-[33m980e824[m 【ascend device plugin】修复DT报错
-[33mde24c0a[m 【ascend device plugin】离线复位适配带外,推理复位写节点注释
-[33mc7fc19e[m 【volcano】【修改说明】volcano重构--plugin目录优化
-[33m946f0b2[m Merge https://gitee.com/ascend/mind-cluster into vnpu
-[33m11ccf00[m 【volcano】【修改说明】volcano重构--plugin目录优化
-[33m2a5ee28[m !542 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例 * 【volcano】【修改说明】volcano重构--交换机亲和性增加测试用例
-[33m0fe363e[m !544 【nodeD】noded支持pingmesh-wather、executor及编译、部署适配 * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】noded支持pingmesh-wather、executor * Merge branch 'master' of https://gitee.com/ascend/mind-cluster into pi… * 【修改说明 Modification】noded支持pingmesh-wather、executor * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
-[33mf35892d[m 【volcano】【修改说明】volcano重构--数据初始化模块优化
-[33m9b7376c[m !539 【clusterd】【修改说明】【微重构】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整 * 【clusterd】【修改说明】nodeHandler结构调整
-[33m483da08[m !540 【clusterd】【修改说明】变更公共故障时间戳单位为ms Merge pull request !540 from weihaoran/pub_ms2
-[33m02a7911[m !541 【DCMI】【hwlog】hwlog增加CustomLogger接口,DCMI-pingemsh接口补充 * 【修改说明 Modification】hwlog增加CustomLogger接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】增加pingmesh相关接口 * 【修改说明 Modification】noded支持pingmesh * 【修改说明 Modification】noded支持pingmesh
-[33ma9991f0[m !526 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块
-[33m3735526[m !434 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块 * 【volcano】【修改说明】volcano重构--交换机亲和性提单独模块
-[33m945f4ef[m 【clusterd】【修改说明】变更公共故障时间戳单位为ms
-[33ma579686[m !535 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volcano的故障reason有PublicFault就显示PublicFault * 【修改说明】[clusterd/volcano]-clusterd上报PublicFault,不上报具体哪种PublicFault,volc…
-[33m8d3ad24[m !534 【ascend device plugin】检查到设备健康就清除复位计数 Merge pull request !534 from YangLei/master
-[33mc0f0dfa[m 【ascend device plugin】检查到设备健康就清除复位计数
-[33m25bf1bf[m !523 【ascend device plugin】训练在线复位增加带外复位 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复检视 * 【ascend device plugin】修复检视 * 【ascend device plugin】增加DT * 【ascend device plugin】增加DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复clean coded * 【ascend device plugin】优化代码逻辑 * out band reset for train online, try out band and update node annotation * temp dev 0226 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】修复DT * 【ascend device plugin】修复DT * 【ascend device plugin】修复编译问题 * fix build error * 【ascend device plugin】修复cleancode * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步 * 【ascend device plugin】类重命名,职责最小化
-[33m59261ac[m !529 【clusterd】【修改说明】公共故障码更新 * 【clusterd】【修改说明】公共故障码更新
-[33m73a7a8a[m !525 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存 * 【clusterd】【修改说明】初始化故障码缓存
-[33mdba19e7[m !522 [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]clean * [npu-exporter]clean * [npu-exporter]DT * [npu-exporter]DT * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整 * [npu-exporter]hccn_tool日志优化;指标调整
-[33mabd38ba[m !517 [npu-exporter] implement vNPU metrics support * added nil check before dereferencing * implemented CollectToCache and UpdatePrometheus for vNPU * use activityVDev copy instead of same variable
-[33mddcfb96[m taskd cleancode python文件缩进格式及空行修改
-[33mec767a2[m !519 【ascend device plugin】1. 添加dcmi接口 2. 修改类名 * 【ascend device plugin】1 添加dcmi接口 2 命名修改同步
-[33m1f2c1fb[m !521 【clusterd】【修改说明】【微重构】needDeleteQueue类上移 * 【clusterd】【修改说明】needDeleteQueue类上移
-[33mc315c9f[m !520 【clusterd】【修改说明】公共故障description正则修改 * 【clusterd】【修改说明】公共故障description正则修改
-[33m3e91efe[m !501 【修改说明 Modification】增加hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口 * 【修改说明 Modification】hccs-pingmesh相关接口
-[33maed59e8[m !512 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复 Merge pull request !512 from wangjun/dp_bugfix
-[33m85d13c1[m !516 [npu-exporter]DT * [npu-exporter]DT
-[33m2f9cbc9[m !513 [npu-exporter]fix:极端场景下的高并发问题、process指标label中补充containerID信息 * [npu-exporter]fix:极端场景下的高并发问题
-[33ma347698[m 【device-plugin】【修改说明】1520故障信息变更dp未及时上报问题修复
-[33m61a2ad2[m !457 【ascend device plugin】周期检查复位失败标记,判断是否清除 * 【ascend device plugin】解冲突 * Merge branch 'master' of gitee.com:ascend/mind-cluster into master * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改DT * 【ascend device plugin】修改检视 * 【ascend device plugin】修改检视 * 【ascend device plugin】DT * 【ascend device plugin】修复检视意见 * Merge branch 'master' of https://gitee.com/ascend/mind-cluster * 【ascend device plugin】每张卡的复位状态独立,分别通过数组保存三方复位的芯片和人工复位的芯片 * Revert "【ascend device plugin】修复clean code导包顺序" * 【ascend device plugin】修复clean code导包顺序 * 【ascend device plugin】修复clean code和编译问题 * 【ascend device plugin】周期检查复位失败标记,判断是否清除
-[33mad2bbcf[m !511 【clusterd】【修改说明】公共故障校验日志优化 Merge pull request !511 from weihaoran/pub_log2
-[33me779f82[m !472 【volcano】【修改说明】volcano重构--重调度模块简化一 Merge pull request !472 from fengjianqing/fault
-[33m18c88c6[m !499 【clusterd】【修改说明】新增公共故障码 * clusterd支持统一故障推送
-[33m3cc9268[m 联调包
-[33me0723d0[m !506 【device-plugin】【修改说明】dp创建containerd客户端初始化优化及dt补充 Merge pull request !506 from wangjun/dp_micro_refactor
-[33m07e2263[m 【device-plugin】【修改说明】dp创建containerd客户端初始化优化
-[33m3eb429f[m taskd cleancode python文件缩进格式及空行修改
-[33m5b511e8[m !509 构建包添加yaml文件 Merge pull request !509 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms
-[33mf8132b5[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
-[33mf7bc10c[m 构建包添加yaml文件
-[33m3770242[m !505 【clusted】【修改说明】完善公共故障信息打印 * clusterd支持统一故障推送
-[33m8aa6e65[m taskd cleancode python文件缩进格式及空行修改
-[33mca09b00[m !504 【device-plugin】【修改说明】cleanCode修改 Merge pull request !504 from wangjun/dp_cleancode
-[33mebf9cae[m !503 [npu-exporter]cleanCode修改 * [npu-exporter]cleanCode修改
-[33mffd86fc[m !502 【volcano】【修改说明】not stable条件修改 * clusterd支持统一故障推送
-[33m7b942c2[m 【device-plugin】【修改说明】cleanCode修改
-[33m658251a[m Merge remote-tracking branch 'origin/master'
-[33m43f8db2[m !498 【device plugin】【clusterd】【taskd】【volcano】【common】clean-code整改 * 【修改说明】cleancode
-[33m85ab90a[m Merge remote-tracking branch 'origin/master'
-[33m6e073e0[m 【修改说明】cleancode-数组下标越界
-[33m78f378d[m !497 clusterd支持统一故障推送 Merge pull request !497 from weihaoran/pub_opti3
-[33meb7b28c[m clusterd支持统一故障推送
-[33m0896060[m 【修改说明】cleancode
-[33maa61915[m !496 【device-plugin】【修改说明】dp与容器通信yaml修改 * 【device-plugin】【修改说明】dp与容器通信yaml修改
-[33m5980077[m !494 clusterd支持统一故障推送 * clusterd支持统一故障推送
-[33m3d822e7[m !491 日志库回滚策略配置提交 * 日志库回滚策略配置
-[33m1725473[m !493 增加init * Merge remote-tracking branch 'upstream/master' into feature/grace_tole… * 包增加init * 包增加init
-[33ma362a83[m !492 clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送 * clusterd支持统一故障推送
-[33m5d1e0aa[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
-[33md9a6815[m 包增加init
-[33mde86009[m 包增加init
-[33m9994827[m 【volcano】【修改说明】volcano重构--重调度模块简化一
-[33m4d8bb82[m !490 增加ms进程级恢复 Merge pull request !490 from Lianjun Zhang Atlas/feature/grace_tolerace_for_ms
-[33m4159456[m !470 【修改说明】【clusterd】clusterd支持故障统一推送 * clusterd支持统一故障推送
-[33mf593dd2[m 增加ms进程级恢复
-[33m3625d9b[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
-[33m3651ee6[m !489 增加故障恢复模块及grpc * 增加故障检测和恢复模块
-[33mfd0db7e[m 增加故障检测和恢复模块
-[33mb614ba5[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
-[33m6954feb[m 增加故障检测和恢复模块
-[33mb332b99[m !469 初始化taskd 基础代码 * dt修改 & 检视修改
-[33m21d244b[m !488 【npu-exporter】重构拆分5 * 2 * 2
-[33m914753b[m !487 【npu-exporter】重构拆分4 Merge pull request !487 from dongpeng30/refactor_4
-[33mc5e53b9[m dt修改 & 检视修改
-[33m1a84a89[m !483 【device-plugin】【修改说明】dp请求apiserver与初始化客户端冲突问题处理 Merge pull request !483 from wangjun/dp_apiserver_fix
-[33m74b0674[m dt修改 & 检视修改
-[33mca968da[m !486 【npu-exporter】重构拆分3 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1
-[33m6e823ef[m !479 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet和容器通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复 * 【device-plugin】【修改说明】dp与kubelet端口通信日志刷屏问题修复
-[33m9e23978[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
-[33m3267ba5[m dt修改 & 检视修改
-[33mb876475[m !468 【taskd】【修改说明】上传日志模块基础代码 * 上传日志模块基础代码
-[33m2c9dd02[m dt修改 & 检视修改
-[33m5e66424[m dt修改 & 检视修改
-[33mea8aaf6[m dt修改 & 检视修改
-[33md67d845[m !485 【npu-exporter】重构2 * 2 * 2 * Merge branch 'master' of gitee.com:ascend/mind-cluster into refactor_1 * 2 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1
-[33mfd6535b[m !484 【修改说明】npu-exporter重构拆分1 * 2 * 2 * 【修改说明】拆分 * 【修改说明】npu-exporter重构1 * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-dt * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-x * 【修改说明】npu-exporter重构-增加pcie * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构-cleancode * 【修改说明】npu-exporter重构4-fix hbm * 【修改说明】npu-exporter重构3-提取框架,精简代码 * 【修改说明】npu-exporter重构2 * 【修改说明】npu-exporter重构1
-[33md44177b[m !481 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务 Merge pull request !481 from fengjianqing/debug
-[33m736d9b5[m 【volcano】【修改说明】超节点亲和性未拦截不满足亲和性调度任务
-[33m59a083d[m !478 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,grpc部分
-[33mf6bd880[m !476 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,app层的util部分
-[33md61aea6[m !474 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息 * 【device-plugin】【修改说明】dp支持从容器中获取当前已使用的芯片信息
-[33mb424637[m !475 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分 * 【clusterd】【修改说明】clusterd支持故障统一推送需求,domain层的util部分
-[33m11b8af0[m 【volcano】【修改说明】volcano重构--重调度模块简化一
-[33mb87a535[m dt修改 & 检视修改
-[33m9fb083a[m !467 noded通过ipmi获取sn信息并写入node的annotation上 Merge pull request !467 from wuweilin/master-0215
-[33mfd13272[m Merge remote-tracking branch 'upstream/master' into feature/grace_tolerace_for_ms
-[33m1da950b[m noded通过ipmi获取sn信息并写入node的annotation上
-[33m4cfd5a9[m !466 【device-plugin】【修改说明】dp组件日志刷屏问题修复 Merge pull request !466 from wangjun/dp_log
-[33m401b090[m !431 【修改说明】整机调度优化通过端口获取Pod信息 * 【修改说明】整机调度优化通过端口获取Pod信息
-[33mba93674[m 上传msmgr
-[33m6765263[m 修改包路径
-[33m727f42d[m !458 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载 * 【operator】【修改说明】在acjob场景下,强制给容器配置downwardapi,保证volcano选中芯片被最终挂载
-[33mfccf7bb[m !465 【volcano】【修改说明】A3 A+X亲和性调度 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * 【volcano】【修改说明】A3 A+X亲和性调度 修改检视意见 * Merge remote-tracking branch 'origin/master' into a+x-dt * 【volcano】【修改说明】A3 A+X亲和性调度 DT补充 * 【volcano】【修改说明】支持A3 A+X亲和性调度
-[33m1d6d581[m !453 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息 * 【ascend for volcano】【修改说明】在acjob场景下,支持直接写入最终的芯片选中信息
-[33md259dfa[m elastic agent原始代码迁移
-[33mb9a7a58[m !438 switch适配修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * 检视修改 * dt修复 * 检视修改 * 修改日志打印 * 修改打印 * 修改dt * 修改dt * 修改dt * switch适配修改 dt * 适配逻辑修改 * switch适配修改 * 修改common库路径使得其他仓库可以引用
-[33m3cf6237[m 【device-plugin】【修改说明】dp组件日志刷屏问题修复
-[33me2c7118[m 【device-plugin】【修改说明】dp组件日志刷屏问题修复
-[33m049918a[m !454 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * 【volcano】【修改说明】volcano重构-基础调度重复代码下沉至基类 * Merge https://gitee.com/ascend/mind-cluster into 330 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录按功能分层
-[33md7bb1a7[m 【device-plugin】【修改说明】dp组件日志刷屏问题修复
-[33m3a06eb4[m !444 【修改说明】[clusterd]-cleancode * 【修改说明】[clusterd]-cleancode
-[33mb852283[m !449 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程 * 【volcano】【修改说明】优化节点间亲和性调度失败,后续处理流程
-[33m9839d35[m !436 【taskd】【修改说明】taskd初始化提交 * taskd初始化提交
-[33maeef459[m !440 修改故障码 * 修改故障码
-[33m02bb3bd[m !455 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy * 【clusterd】mindio上报非UCE故障,设置healthState为unhealthy
-[33m6a6b09f[m !448 【clusterd】【修改说明】add test for recover plugin * add test for recover plugin
-[33m6e1053d[m !447 【clusterd】【修改说明】add test for controller * ut
-[33m3f977c5[m !452 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【noded】【修改说明】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低
-[33m98be6af[m !451 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报 * 【device-plugin】【修改说明】dp数据无变更时,上报周期降低;若发生异常时,则继续周期性上报
-[33m9692227[m !446 【clusterd】【修改说明】add test for recover service * comment fix
-[33m8376d71[m !437 【修改说明】增加cardID、deviceID缓存 * 【修改说明】增加cardID、deviceID缓存
-[33m17756d8[m !429 【volcano】【修改说明】volcano重构--util目录按功能分层 * 【volcano】【修改说明】volcano重构--util目录分层
-[33m96b8dde[m !439 修改0x08520003 增加na * 修改0x08520003 增加na
-[33m69042ec[m !425 【修改说明】[clusterd]cleancode * 【修改说明】[clusterd]-cleancode
-[33m61f6574[m !435 【volcano】【修改说明】volcano重构--删除冗余代码 * 【volcano】【修改说明】volcano重构--删除冗余代码
-[33m09f7ebc[m !432 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】【NodeD】noded的节点心跳功能已去除,noded的上报节点故障频率可以降低 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题 * 【修改说明】修复NPU芯片被占用,根据芯片信息构建芯片名称错误问题以及获取芯片占用后kubelet芯片数量未更新问题
-[33m5ec771a[m !397 【ClusterD】仅支持dump场景直接通知mindio保存ckpt * 【ClusterD】仅支持dump场景直接通知mindio保存ckpt
-[33mb876f86[m !423 【ascend-for-volcano】适配clusterd主动保存ckpt场景 * 【ascend-for-volcano】适配clusterd主动保存ckpt场景
-[33m9b69604[m !426 【修改说明】【clusterD】DT用例 clean code * 【修改说明】【clusterD】DT用例 clean code
-[33m75113e1[m !427 【修改说明】[clusterd]faultmanager重构-bugfix * 【修改说明】[clusterd]faultmanager重构-bugfix
-[33m966d12a[m !414 【修改说明】[clusterd]faultmanager重构-faultmanager的功能下沉到faultdomain中 * 【修改说明】[clusterd]faultmanager重构-处理v6 rebase on v5
-[33md31b111[m !413 【修改说明】[clusterd]faultmanager重构-job fault rank、fault job、cmmanager、各个center单独提出来。 * 【修改说明】[clusterd]faultmanager重构-v5 rebase on v4 处理冲突
-[33mcfb6827[m !412 【修改说明】[clusterd]faultmanager重构-uce_accompany单独提出来。 * 【修改说明】[clusterd]faultmanager重构-cleancode
-[33mb270c67[m !424 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test * 【修改说明】[clusterd]faultmanager重构-增加fault_utils_test
-[33mb315c7e[m !410 【修改说明】[clusterd]faultmanager重构-DT * 【修改说明】[clusterd]faultmanager重构-dt
-[33m5896898[m !407 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来 Merge pull request !407 from lirui238/fm-refactor-v3
-[33mc844a6d[m !416 【修改说明】【ClusterD】complete grpc common package DT test * add DT
-[33mb87310f[m !420 【volcano】【operator】【clusterD】clean-code整改 * 【修改说明 Modification】clean-code
-[33m8538344[m !417 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例 * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula * Merge remote-tracking branch 'upstream/master' * 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。
-[33m063cbf0[m !405 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网 * 【修改说明】[operator] 修改变量设置值,以及优化日志 * Merge remote-tracking branch 'origin/master' into dynamic-hccs-env * 【修改说明】[operator] Pod创建时给ascend容器添加HCCL_LOGIC_SUPERPOD_ID环境变量用于超节点NPU动态组网
-[33mbe4875a[m !411 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * Merge branch 'master' of https://gitee.com/shepherd_cheung/mind-cluster * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充
-[33m468d02b[m !409 【修改说明】【ClusterD】bug fix for div zero * add div zero check * fix devicePerNode is 0
-[33m7fb4ed1[m !358 【修改说明】【ClusterD】add grpc common package DT test * fix test name * fmt * fmt * change Ltd time * fix test * add test * add test * add test * init logger * add dt test
-[33m36f7c08[m !401 【ascend-operator】DT补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充 * 【修改说明 Modification】dt补充
-[33m83fca4c[m 【修改说明】[clusterd]faultmanager重构-bugfix
-[33m6ffe87f[m 【修改说明】[clusterd]faultmanager重构-dt
-[33m5c0a5c6[m 【修改说明】[clusterd]faultmanager重构-bugfix
-[33m29776c5[m 【修改说明】[clusterd]faultmanager重构-codecheck
-[33mca08fe6[m 【修改说明】[clusterd]faultmanager重构-根据cm更新,判断是否需要处理
-[33mf0f916c[m 【修改说明】[clusterd]faultmanager重构-从pg获取resource type
-[33m5bf0a71[m 【修改说明】[clusterd]faultmanager重构-将uce单独拿出来
-[33m825506b[m 【修改说明】[clusterd]将informer缓存起来,防止丢失故障信息
-[33mc93909f[m !394 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例
-[33mcfbcfd4[m !361 【ascend-operator】微重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构 * 【修改说明 Modification】重构
-[33mf58964a[m !391 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。 Merge pull request !391 from lirui238/manuallysparatenpu-handle
-[33mb389c85[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。修复检视意见。
-[33m1f0a7f0[m !373 【volcano】【修改说明】算力切分支持B2模板 Merge pull request !373 from fengjianqing/master
-[33m599fb51[m !392 【修改说明】【noded】clean-code修改 Merge pull request !392 from weihaoran/noded-cleancode
-[33m06a5cd1[m 【volcano】【修改说明】算力切分支持B2模板
-[33maaf1035[m !393 【修改说明】cleancode-格式化 * 【修改说明】cleancode-格式化
-[33m4f736b4[m !390 【volcano】【修改说明】补充DT用例 * 【修改说明】cleancode问题修改 * 【修改说明】cleancode问题修改 * 【修改说明】补充DT用例
-[33m343565c[m 【修改说明】[clusterd]dp可能上报manuallysparatenpu故障,这种故障可能没有faultcode,需要处理。
-[33mbe09550[m !382 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。 * 【修改说明】[clusterd]当时uce故障一直只有业务面上报时,需要考虑仅业务面信息。
-[33m29cd535[m !383 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * Merge branch 'master' of gitee.com:ascend/mind-cluster * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * 【修改说明】优化从环境变量获取挂卡信息,有多个时,使用最后一个,同时打印WARN日志 * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:ascend/mind-cluster * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:dongpeng30/mindxdl; branch 'master'… * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * 【修改说明】刷屏日志处理 * Merge branch 'master' of gitee.com:ascend/mindxdl * Merge branch 'master' of gitee.com:ascend/mindxdl * 【修改说明】整体利用率、pciebandwidth指标刷屏-todo
-[33m803c3ba[m !379 job重构DT补充吗,去掉-race Merge pull request !379 from wuweilin/master-0107
-[33m2b4aa5a[m !386 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作' Merge pull request !386 from luxiang6/revert-merge-338-master
-[33m64d72d5[m[33m ([m[1;31mupstream/revert-merge-338-master[m[33m, [m[1;31morigin/revert-merge-338-master[m[33m)[m 回退 'Pull Request !338 : 【修改说明】去除更新fault-config-cm的冗余操作'
-[33m07a420a[m !362 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。 Merge pull request !362 from lirui238/uce-accompany-fix
-[33mf33e386[m !375 【volcano】【修改说明】补充DT用例 Merge pull request !375 from wangjun/master
-[33mc088c49[m !370 【device-plugin】【修改说明】 补充DT用例 Merge pull request !370 from 郭鹏鑫/DT
-[33m143f4c3[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。检视意见
-[33mdd3642f[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。用例设计
-[33mb94e225[m Merge remote-tracking branch 'gpx/DT' into DT
-[33mc2fda3c[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33md5eb93b[m Merge remote-tracking branch 'origin/master' into DT
-[33m07cda12[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m63203d3[m Merge remote-tracking branch 'gpx/DT' into DT
-[33m05b8917[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m36bb23f[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m433e7a2[m !378 【修改内容】【volcano】增加DT用例 * 【修改内容】【volcano】增加DT用例
-[33maa56882[m !356 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例
-[33m8baf65f[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33md446766[m !377 【修改说明】noded剩余ut补充 * 【修改说明】noded剩余ut补充
-[33m6278e62[m Merge remote-tracking branch 'gpx/DT' into DT
-[33mb750d60[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mb12a160[m job重构DT补充吗,去掉-race
-[33m3bfc81e[m !338 【修改说明】去除更新fault-config-cm的冗余操作 * 【修改说明】去除更新fault-config-cm的冗余操作
-[33m218c1b0[m !128 【轻量级 PR】:support pod that has multiple containers and only one of containers has NPU Merge pull request !128 from kingeasternsun/fix/get-aicorenum-fromtask
-[33m5df28dc[m !127 【轻量级 PR】:getVirTemplate 中 virTemplate 参数无用 Merge pull request !127 from kingeasternsun/improve/get-vir-template
-[33m8dad30b[m 【修改说明】补充DT用例
-[33m358cbd4[m 【修改说明】补充DT用例
-[33m3aac3df[m Merge branch 'master' of gitee.com:ascend/mind-cluster into DT
-[33m91a1bdd[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mcc9ac3d[m !366 【修改内容】Volcano增加DT用例 Merge pull request !366 from wangjun/master
-[33mc5b9804[m !365 job重构DT补充 Merge pull request !365 from wuweilin/master-1228
-[33m6415e33[m job重构DT补充
-[33md36e349[m !364 【修改内容】Volcano增加DT用例 * 【修改内容】增加DT用例
-[33m508bf2c[m !369 【volcano】【修改说明】补充DT用例 Merge pull request !369 from fengjianqing/master
-[33m3cf1b1d[m 【修改说明】补充DT用例
-[33m1243238[m 【修改说明】补充DT用例
-[33m768f251[m !367 【修改说明】cleancode修改-33 * 【修改说明】cleancode修改-33
-[33m2be4d6d[m 【volcano】【修改说明】补充DT用例
-[33ma4f9996[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m8420263[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m3de247a[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mda64a1c[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m9fd81b5[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m9262b0e[m 【修改说明】补充DT用例
-[33mf331bd0[m 【修改说明】补充DT用例
-[33m5bb1fb6[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mc2687e9[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33md10c65d[m !363 【volcano】【修改说明】补充DT用例 Merge pull request !363 from fengjianqing/master
-[33mec5d7a4[m 【修改说明】补充DT用例
-[33m5d2300d[m 【修改说明】补充DT用例
-[33m1ff8a96[m 【修改说明】补充DT用例
-[33mafc138f[m 【修改说明】补充DT用例
-[33ma5cc2ca[m 【修改说明】[clusterd]处理当发生uce故障时,管理面不上报uce时,uce伴生故障的判断需要参考业务面的uce上报。
-[33m639da31[m !357 job重构DT补充 Merge pull request !357 from wuweilin/master-1228
-[33m8948a82[m job重构DT补充
-[33mdbdc0e0[m 【volcano】【修改说明】补充DT用例
-[33m2db478f[m !348 【修改说明】noded config包、kubeclient包DT补充 * 【修改说明】noded config包、kubeclient包ut补充
-[33m7986814[m !321 dt新增用例 Merge pull request !321 from fengjianqing/master_fix
-[33m9fff6da[m !360 【volcano】【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例 * 【修改说明】补充DT用例
-[33ma0a3454[m !329 【修改内容】仓库名称修改 Merge pull request !329 from luxiang6/master
-[33m466bac7[m !355 【device-plugin】【修改说明】修改DT用例 Merge pull request !355 from zhoupan39/master
-[33md5d6c9b[m !359 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例
-[33mcbb442f[m !346 【修改内容】volcano 增加DT用例 * 【修改内容】增加DT用例
-[33m259268d[m 【device-plugin】【修改说明】多个打桩函数写入一个变量
-[33m5958268[m 【volcano】【修改说明】补充DT用例
-[33mbfec1dc[m 【device-plugin】【修改说明】修改DT用例
-[33m0be6539[m !354 【volcano】【修改说明】补充DT用例 Merge pull request !354 from wangjun/volcano_dt3
-[33m2af9963[m !353 【volcano】【修改说明】补充DT用例 Merge pull request !353 from wangjun/volcano_dt2
-[33m03c9571[m !352 【volcano】【修改说明】补充DT用例 Merge pull request !352 from wangjun/volcano_dt
-[33m0528b4f[m 【修改说明】补充DT用例
-[33m92ec347[m 【修改说明】补充DT用例
-[33m1d4724c[m 【修改说明】补充DT用例
-[33m76cb663[m 当任务变更成failed或者completed状态时,新增deleteTime
-[33m1ec1774[m !345 【device-plugin】【修改说明】补充DT用例 Merge pull request !345 from zhoupan39/dt2
-[33m80eca72[m !319 【device-plugin】【修改说明】补充DT用例 Merge pull request !319 from zhoupan39/master
-[33mcbbda0e[m 【device-plugin】【修改说明】补充DT用例
-[33me1dc166[m 【device-plugin】【修改说明】补充DT用例-第二批
-[33mb2b3727[m !340 【修改说明】noded common包ut补充 * 【修改说明】noded common包ut补充
-[33m93264bb[m !326 【修改说明】[clusterd]增加ut Merge pull request !326 from lirui238/clusterd-faultmanager-ut
-[33mf1e6a64[m !337 job重构DT补充 Merge pull request !337 from wuweilin/master-1228
-[33md854ed0[m !313 【device-plugin】【修改说明】 补充DT用例 Merge pull request !313 from 郭鹏鑫/DT
-[33m46a8c14[m !341 【修改说明】增加DT * 【修改说明】DT
-[33m9840460[m !333 【ascend docker runtime】增加DT用例 * 【ascend docker runtime】增加DT用例
-[33m3e1d53e[m job重构DT补充
-[33ma3034d9[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33me9e789f[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m1be5f47[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m16fde83[m 【修改说明】device-plugin server 补充DT用例
-[33me821708[m 【修改说明】device-plugin server 补充DT用例
-[33m42aaf70[m 【修改说明】device-plugin server 补充DT用例
-[33m7f60807[m 【修改说明】device-plugin server 补充DT用例
-[33md5a65d0[m 【修改说明】device-plugin server 补充DT用例
-[33m1284602[m 【修改说明】device-plugin server 补充DT用例
-[33m36a5026[m 【修改说明】device-plugin server 补充DT用例
-[33m8a76420[m 【修改说明】device-plugin server 补充DT用例
-[33m2608296[m 【修改说明】device-plugin server 补充DT用例
-[33m7df28a4[m 【修改说明】device-plugin server 补充DT用例
-[33m9b42b26[m !335 【修改说明】删除非软件故障pod label Merge pull request !335 from tiankaijin/fixmaster
-[33mc54482b[m 【修改说明】device-plugin server 补充DT用例
-[33mce3cf2a[m 【修改说明】device-plugin server 补充DT用例
-[33mc461fd9[m 【修改说明】device-plugin server 补充DT用例
-[33me8551be[m 【修改说明】device-plugin server 补充DT用例
-[33m27b90f4[m fix label
-[33mf357d03[m 【修改说明】device-plugin server 补充DT用例
-[33ma8d5b8f[m 【修改说明】device-plugin server 补充DT用例
-[33m0f2510c[m 【修改说明】device-plugin server 补充DT用例
-[33m88fb9c0[m 【修改说明】device-plugin server 补充DT用例
-[33mf104241[m 【修改说明】device-plugin server 补充DT用例
-[33m02f8701[m 【修改说明】device-plugin server 补充DT用例
-[33m767742a[m 【修改说明】device-plugin server 补充DT用例
-[33m7ddb3f5[m 【修改说明】device-plugin server 补充DT用例
-[33m6b4a600[m 【修改说明】device-plugin server 补充DT用例
-[33m848634e[m 【修改说明】device-plugin server 补充DT用例
-[33ma379e0b[m 【修改说明】device-plugin server 补充DT用例
-[33m9cfdaf0[m 【修改说明】device-plugin server 补充DT用例
-[33m2bcaed3[m 【修改说明】device-plugin server 补充DT用例
-[33mcd6007d[m 【修改说明】device-plugin server 补充DT用例
-[33m261bb7f[m 【修改说明】device-plugin server 补充DT用例
-[33m6afa791[m 【修改说明】device-plugin server 补充DT用例
-[33m9c21d5e[m 【修改说明】device-plugin server 补充DT用例
-[33md79c0c2[m 【修改说明】device-plugin server 补充DT用例
-[33m1dd51a8[m 【修改说明】device-plugin server 补充DT用例
-[33m646238e[m 【修改说明】device-plugin server 补充DT用例
-[33m6be3116[m 【修改说明】device-plugin server 补充DT用例
-[33m6984805[m 【修改说明】device-plugin server 补充DT用例
-[33m9edadca[m 【修改说明】device-plugin server 补充DT用例
-[33m429e06c[m Merge branch 'master' of https://gitee.com/luxiang6/mindxdl
-[33md894bc4[m 改名修改
-[33me0ba793[m !327 【修改说明】[clusterd]修改clusterd关联故障时间 Merge pull request !327 from fengjianqing/tmp
-[33m71db399[m 【修改说明】[clusterd]修改clusterd关联故障时间
-[33m17a93ab[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33md71cf65[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m1967c7b[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m1ff53c4[m 【修改说明】[clusterd]增加ut
-[33me406e6d[m !298 【ascend docker runtime】参数归一; --install-scene支持isula * 【ascend docker runtime】参数归一; --install-scene支持isula
-[33m85d26da[m !323 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度 Merge pull request !323 from fengjianqing/tmp
-[33mdea302f[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m7b25b0e[m 【修改说明】[clusterd]修改clusterdPatch失败无法触发重调度
-[33m07a06c1[m !318 【修改说明】支持平台修改策略 & 平台场景去掉等待调度成功逻辑 Merge pull request !318 from tiankaijin/x1fix
-[33m9237dd6[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m05fa864[m fix
-[33m8657cd8[m !314 【clusterD】【nodeD】clean-code整改 Merge pull request !314 from Atlas_zxp/master-cleancode
-[33mfffe7c9[m Merge branch 'refs/heads/master' into DT
-[33m496be09[m fix
-[33m169a7b1[m !299 【修改说明】[npu-exporter]修复crypto漏洞 Merge pull request !299 from lirui238/crypto-issue
-[33m1d6902f[m !311 【clusterd】【修改说明】文件初始化问题修复 Merge pull request !311 from fengjianqing/master_fix
-[33m1748081[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m24bd0c9[m 【修改说明】[npu-exporter]修复crypto漏洞
-[33m7d752dd[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mcbff6f7[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mab5110d[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m0ab07a8[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mfafcafc[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m6de0bed[m 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m6a36e95[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33mcdf3b96[m 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33ma385ac6[m 【修改说明 Modification】clean-code整改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m0271e91[m Merge branch 'master' into DT
-[33md5233d6[m 【修改说明】device-plugin kubeclient 补充DT用例
-[33m111a1c2[m 【clusterd】【修改说明】文件初始化问题修复
-[33mf72b526[m Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl
-[33mbd84944[m !309 补充NSLB2.0厂家的masterAddr参数 Merge pull request !309 from wuweilin/master-1221
-[33mc1c2815[m !308 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复 * 【clusterd】【修改说明】关联故障码bug修复
-[33mdf36db4[m 补充NSLB2.0厂家的masterAddr参数
-[33maf87c6a[m !306 【修改说明】等待AI平台ProcessResultFault逻辑去掉长度为0判断 * fix
-[33m9d4f4e3[m !304 【修改说明】重复label问题修复 * fix * fix
-[33m5a8d424[m !302 【修改说明】jobName换pgName Merge pull request !302 from tiankaijin/x1
-[33m167cc89[m fix
-[33mfdfca00[m !218 【lssue】Device-Plugin getDeviceFaults增加频率类型网络故障相关代码 Merge pull request !218 from 郭鹏鑫/frequency
-[33m52b2347[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
-[33ma1633b2[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
-[33m0124134[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
-[33m2703ade[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 *fix
-[33mb51639d[m 【修改说明】device-plugin kubeclient DT
-[33mc24bcec[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充
-[33m9fa8b55[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分 DT补充
-[33m2318727[m !282 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * 【ascend operator】补充DT用例 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * Merge branch 'master' of https://gitee.com/ascend/mindxdl * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】对cm和file统一更新version * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。
-[33maf02981[m !279 【clusterD】【volcano】【nodeD】【断点续训】nodeD不再上报节点心跳,volcano、clusterD适配修改 Merge pull request !279 from Atlas_zxp/remove-heartbeat
-[33mc62786f[m !293 【volcano】【断点续训】volcano为节点打分时,最低分为0 Merge pull request !293 from Atlas_zxp/cherry-pick-1734601670
-[33mc2d58c6[m Merge remote-tracking branch 'upstream/master'
-[33m8eee278[m 【修改说明 Modification】volcano为节点打分时,分布不能为负值 (cherry picked commit from
-[33mee08ddd[m 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m2616428[m !284 【clusterd】【修改说明】修复多次打印日志的问题 Merge pull request !284 from wsy/111master
-[33m7388014[m 【修改说明 Modification】volcano为节点打分时,分布不能为负值 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m532afff[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分
-[33m6f530ff[m 【修改说明 Modification】nodeD不再上报节点心跳,volcano、clusterD适配修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m3e5af31[m 【修改说明】device-plugin frequency 整卡故障和网络故障区分
-[33m84ec8bd[m 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m4f10786[m 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m6c39987[m Merge branch 'master' into frequency
-[33mfc82b1f[m Merge remote-tracking branch 'origin/master'
-[33m6cc1bc7[m !288 【dcmi】【芯片网络状态查询】goroutin泄露问题修改 Merge pull request !288 from Atlas_zxp/memoryleak-bugfix
-[33m0712fb7[m !289 【修改说明】修复github.com/opencontainers/runc漏洞 Merge pull request !289 from lirui238/dts-runc-v1.1.5-prob
-[33m901d018[m !286 【修改说明】软件故障直接触发pod打标签(AI平台场景) Merge pull request !286 from tiankaijin/label
-[33md70ee5f[m fix
-[33m956af44[m 【修改说明】修复github.com/opencontainers/runc漏洞
-[33m7e6eaac[m 【修改说明 Modification】goroutin泄露问题修改 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m71b842a[m 【修改说明】A3网络故障适配
-[33mbb533c0[m !276 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题 * 解决不带芯片的scheduler任务调度时,ranktable状态不为completed的问题
-[33m565c988[m 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mcbd0275[m 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m22356dd[m 【修改说明 Modification】clusterD不再检测noded上报的心跳信息 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m3aee668[m Merge branch 'master' into frequency
-[33mc857acd[m Merge remote-tracking branch 'origin/master'
-[33mad50fe8[m !265 【修改说明】cleancode Merge pull request !265 from tiankaijin/master
-[33m7fa1cdc[m !274 解决偶现hccl不完整的问题 Merge pull request !274 from wuweilin/master-1216
-[33m9aa16b7[m 解决偶现hccl不完整的问题
-[33mee54000[m !273 支持网络关联故障bug修复 Merge pull request !273 from fengjianqing/new
-[33m8bc99e6[m fix
-[33m65f062d[m RC3支持网络关联故障bug修复
-[33m4be5ae7[m !270 【DP】【修改说明】cqe错误码改为L1 Merge pull request !270 from wsy/code
-[33m773d8ed[m 【修改说明】A3网络故障适配
-[33m757df07[m 【修改说明 Modification】volcano不检测nodeD上报的心跳 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m6957c6f[m 【修改说明】A3网络故障适配
-[33m087c785[m 【修改说明】A3网络故障适配
-[33mcefa11d[m fix
-[33m1c25349[m Merge remote-tracking branch 'origin/master'
-[33mf5c2aaf[m clean code
-[33m7a008cf[m 【修改说明 Modification】取消心跳上报,节点状态有更新才上报 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m18a3090[m !261 【修改说明】解决部分指标刷屏日志 * 【修改说明】刷屏日志处理
-[33mfcf3fd7[m !259 【修改说明 Modification】switch和node故障支持进程级恢复补充修改 Merge pull request !259 from Atlas_zxp/process-bugfix
-[33m6864b01[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m1c101d4[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m4f85875[m !252 【修改说明】兜底mindio和mindx开关不一致问题 Merge pull request !252 from tiankaijin/fixSwitch
-[33ma9dc9ba[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m669d371[m fix
-[33md3674db[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m57d7f98[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m4af716a[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33ma8f57e4[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m23acd29[m fix
-[33m4b44fa4[m !253 【修改说明 Modification】switch和node故障支持进程级恢复 Merge pull request !253 from Atlas_zxp/process-bugfix
-[33m08eeda3[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mbf7dc1c[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m4702205[m !222 【修改说明】volcano支持关联故障 Merge pull request !222 from fengjianqing/volcano
-[33m3e602a8[m Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl into process-bugfix
-[33m05e1388[m 【修改说明 Modification】switch和node故障支持进程级恢复 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m77993a9[m !133 【修改说明】A3 hccs关联故障适配 * 【修改说明】A3网络故障适配
-[33m3feeb94[m clusterd支持网络关联故障
-[33mea5582e[m !251 dp支持hccl算子重执行 Merge pull request !251 from fengjianqing/dp
-[33m9f8e0c1[m !216 【clusterd支持关联故障】 * clusterd支持网络关联故障 * clusterd支持关联故障
-[33m3e31424[m fix
-[33m64717af[m fix
-[33m378ec8a[m fix
-[33med68f1f[m dp支持hccl算子重执行
-[33m6540065[m Merge branch 'refs/heads/master' into frequency
-[33m8a9d1b9[m Merge remote-tracking branch 'origin/master'
-[33me7a8e82[m 【修改说明】device-plugin frequency
-[33mf57eb24[m 【修改说明】device-plugin frequency
-[33m7a6a388[m !247 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态 Merge pull request !247 from Wangmin362/jobstatus-update
-[33md3b421d[m !246 【修改说明】重调度兜底hotReset=1与进程级恢复不兼容的问题 Merge pull request !246 from tiankaijin/fixHotReset
-[33me4f9d66[m !224 【修改说明】更新修复结果到annotation中 Merge pull request !224 from tiankaijin/updateResult
-[33m1567a18[m 【修改说明 Modification】当Pod状态为非Running,非Succeed状态,就认为Job处于Failed状态
-[33m9cef76f[m fix
-[33me10837c[m fix
-[33me362c53[m update result
-[33ma049bdb[m fix
-[33m4d99c42[m 【修改说明】device-plugin frequency
-[33m77e4e75[m 【修改说明】device-plugin frequency
-[33mec678f0[m 【修改说明】device-plugin frequency
-[33mb809297[m Merge branch 'refs/heads/master' into frequency
-[33m16d5023[m Merge remote-tracking branch 'origin/master'
-[33m38e981b[m !244 ccae联调修改 Merge pull request !244 from wuweilin/jobr5
-[33m0e55751[m fix
-[33m1e2a5c4[m fix
-[33m5b6d833[m ccae联调修改
-[33m1e501f7[m fix
-[33m15c78d6[m !231 【修改说明】移除原来的cmManager * 【修改说明】移除原来的cmManager
-[33m86de04b[m !242 【修改说明】report的updatechan长度扩展 Merge pull request !242 from lirui238/cherry-pick-1733921599
-[33md46b86e[m fix
-[33m3513739[m 【修改说明】report的updatechan长度扩展 (cherry picked commit from
-[33m8c63ea5[m !238 【修改说明 Modification】增加异常错误日志 Merge pull request !238 from Wangmin362/opt2
-[33meff9323[m !225 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。
-[33m3735edb[m !226 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix Merge pull request !226 from Atlas_zxp/operator-bugfix
-[33m44b7a53[m 【修改说明 Modification】增加异常错误日志
-[33m8728269[m 【修改说明】支持关联故障
-[33m876fbf2[m !233 【修改说明】cleanCode修改 Merge pull request !233 from dongpeng30/clean_code
-[33m7c835a5[m clean code
-[33m117f303[m fix
-[33m1dae39c[m Merge branch 'refs/heads/master' into frequency
-[33m010293e[m Merge remote-tracking branch 'origin/master'
-[33m3ff39c8[m 【修改说明】cleancode修改
-[33m7a76e78[m Merge remote-tracking branch 'upstream/master'
-[33m29950ec[m 【修改说明 Modification】operator创建svc失败,日志返回错误bugfix 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m68b186f[m add fix result
-[33m14d0b5c[m !176 【修改说明 Modification】fault manager来决策是否做step-retry Merge pull request !176 from lirui238/faultmanager-juedge-stepretry-v2
-[33m1e45dc1[m 【修改说明】volcano支持关联故障
-[33m8695017[m 【修改说明】volcano支持关联故障
-[33md11ed73[m !209 【修改说明 Modification】jobCache 调整返回值顺序,删除无用代码 * 【修改说明 Modification】调整返回值顺序,删除无用代码
-[33m60894dc[m 【修改说明】抽取公共方法,解决检视意见
-[33m325c966[m !203 【ascend operator】因为elastic无法读取configmap的软连接挂载,以文件形式保存rank table version字段 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * 【ascend operator】支持以nfs挂载rank table,保持向前兼容。 * Merge branch 'master' of https://gitee.com/ascend/mindxdl * save rank table version to file
-[33m272772e[m !202 【修改说明】volcano支持从clusterd写的标签获取故障任务 Merge pull request !202 from fengjianqing/volcano
-[33mc5e4654[m Merge branch 'refs/heads/master' into frequency
-[33m29b3b34[m Merge remote-tracking branch 'origin/master'
-[33m6b87e3d[m 【修改说明】device-plugin frequency
-[33m8db2b7e[m 【修改说明】fix validBusinessReport
-[33m3b3bb36[m !204 【修改说明 lock bug修复。 Merge pull request !204 from lirui238/nil-bug
-[33m88ed452[m !183 [wip] 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】从Pod信息反推PogGroup信息 * 【修改说明 Modification】pg的Uid应该从Pod annotations中获取而不是labels * 【修改说明 Modification】解决合并冲突 * Merge remote-tracking branch 'origin/master' into jobCacheExpection * 【修改说明 Modification】日志信息添加pod Name以及名称空间 * 【修改说明】当从Pod无法获取PodGroup信息时,从ApiServer获取PodGroup信息,以保证断点续训可以正常的注册 * 【修改说明】修改日志级别使用方法,从Errorf修改为Error * 【修改说明】修改获取PG的判断名称空间和名字的逻辑 * 【修改说明】添加注释,修改日志级别 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题 * 【修改说明】解决Job缓存获取pod时没有获取podGroup导致缓存Job失败的问题
-[33m372ebb4[m 【修改说明】出volcano包
-[33mf40dd6d[m 【修改说明】grpc同样修改判断逻辑
-[33m1678ee7[m 【修改说明】fault manager判断step retry
-[33m611b092[m Merge remote-tracking branch 'origin/master'
-[33m3c3dec0[m !200 【修改说明】device-plugin SetSlowNodeNoticeEnv开关参数名修改 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge remote-tracking branch 'origin/master' * Merge remote-tracking branch 'origin/master' * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
-[33m3b7a26a[m 【修改说明 nil bug修复。
-[33m5c8a282[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
-[33me132a2e[m Merge remote-tracking branch 'origin/master'
-[33m84ad338[m 【修改说明】device-plugin frequency
-[33m7e2f08b[m 【修改说明】volcano支持从clusterd写的标签获取故障任务
-[33maf8f27f[m !199 1520故障码级别修复 * 1520故障码级别修复
-[33m5bdfc97[m !153 docker-runtime、operator和dp组件依赖从npu-exporter切换到ascendcommon * ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common
-[33ma6e1819[m Merge remote-tracking branch 'origin/master'
-[33m9affdb6[m !155 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable Merge pull request !155 from lirui238/reduce-recover-config
-[33m05db5f4[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
-[33me604cab[m 【修改说明 Modification】clusterd消减step-retry开关,重命名process-rescheduling为process-recover-enable
-[33m6b2919b[m !177 【修改说明 Modification】reporter订阅faultmanager * 【修改说明 Modification】reporter订阅faultmanager
-[33m2e0b604[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
-[33m21dfd3f[m 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix
-[33m4ec0089[m !171 【修改说明】修复volcano偶现不触发重调度问题 * 【修改说明】修复
-[33m0787992[m !180 【修改说明】热复位去掉checkcode检查 Merge pull request !180 from tiankaijin/checkcode
-[33m62c45fb[m !178 【修改说明】调度失败后,将状态机走faultRetry,由volcano接管 Merge pull request !178 from tiankaijin/faultRetry
-[33ma3980d4[m remove check code
-[33m266a295[m fix scheduling fail case
-[33ma90e86f[m !172 【修改说明 Modification】clusterd使用common包,并设置日志长度为2048。 Merge pull request !172 from lirui238/clusterd-use-common-pkg
-[33m9d9fdea[m !175 修复加锁bug Merge pull request !175 from tiankaijin/fixrlock
-[33mbcbf925[m 【修改说明 Modification】clsuterd使用common包,并设置日志长度为2048。
-[33m3fd31b7[m fix
-[33m2ada92d[m !170 job模块重构-自测修改 Merge pull request !170 from wuweilin/jobnew2
-[33m8c3df2a[m job模块重构-自测修改
-[33m43a2a83[m !169 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复 * 【修改说明 Modification】动态算力切分场景DP分配NPU失败问题修复
-[33md7e96ab[m !162 在多节点下可以正确找到linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into clusterd_log * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡
-[33m201b393[m !154 修复获取热复位芯片数逻辑
-[33m1d38ad9[m !157 【ascend operator】解决rank table的并发修改冲突,将pod删除事件放到reconcile进程中处理 Merge pull request !157 from YangLei/master
-[33m318ef88[m !164 【修改说明】修复组件reset.json 结构不一致导致的checkCode检查失败的问题 Merge pull request !164 from tiankaijin/master
-[33m1acf3bd[m !168 【修改说明】取消step重计算的故障刷新时间 Merge pull request !168 from tiankaijin/sleep
-[33m6e72775[m !165 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。 Merge pull request !165 from lirui238/aic-aiv-fault-report
-[33mfa56db3[m 【修改说明 Modification】在单独出现aiv/aic瞬时故障时,clusterd会丢失故障。
-[33m6085d2f[m fix
-[33m1978f3c[m re initial servers
-[33m97c1129[m fix
-[33meb631ce[m patch
-[33m6573385[m !167 job重构第三部分 Merge pull request !167 from wuweilin/jobnew2
-[33m7b16718[m job模块重构-第三部分
-[33m7f08130[m !166 job重构第二部分 Merge pull request !166 from wuweilin/jobnew
-[33mead3737[m job模块重构-第二部分
-[33m8c4a213[m !152 job模块重构 Merge pull request !152 from wuweilin/jobnew
-[33mb622cdf[m job模块重构-第一部分
-[33med04c6f[m fix
-[33m81278fd[m fix reset json struct
-[33m53ec45b[m Merge remote-tracking branch 'upstream/master'
-[33mdfbf61b[m !156 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全 Merge pull request !156 from lirui238/device-plugin-faulttime-bug
-[33m49a5145[m 【修改说明 Modification】device-plugin上报的fault_time_and_level_map不全
-[33m9ac2066[m Merge branch 'master' of gitee.com:tiankaijin/mindxdl
-[33mc2517b3[m fix
-[33m60762bc[m handle events in one proc
-[33m59f8451[m ascend-docker-runtime、ascend-operator和ascend-device-plugin组件依赖切换到ascend-common
-[33m93da42e[m !151 【修改说明 Modification】uce test * 【修改说明 Modification】增加uce test
-[33madce177[m !147 【修改说明 Modification】重构faultmanager中configmap的使用 * 【修改说明 Modification】重构faultmanager中configmap的使用,使用泛型 * 【修改说明 Modification】重构faultmanager中configmap的使用
-[33mae2f637[m !148 【修改说明】修复dump和Exit策略监听pg running 的时序问题 * fix * fix * fix
-[33mc7049e3[m fix
-[33mfcad3e2[m !141 【修改说明 Modification】faultmanager ut Merge pull request !141 from lirui238/faultmanager-ut
-[33m8dca9b1[m !139 【ascend operator】operator重启时,重置version字段 * "patch" * "patch" * Merge branch 'master' of gitee.com:ascend/mindxdl into hccl * "add comment" * "patch" * "patch" * "patch" * "add commment for exposed func" * "reset cm version when operator reboot"
-[33m92677e7[m Merge remote-tracking branch 'release/master' into faultmanager-ut
-[33m2f46156[m fix
-[33mfe1421f[m fix
-[33m3a38b34[m !144 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志 Merge pull request !144 from lirui238/debug-faulttime
-[33mdaa3a46[m !145 【修改说明 Modification】整机调度过程优化芯片进程查询关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加 * 【修改说明 Modification】整机调度过程优化关键日志添加
-[33m8d76d46[m !135 【ascend operator】通过状态机控制ranktable保存,降低资源读写次数 Merge pull request !135 from YangLei/master
-[33m9a00f54[m !146 【修改说明】cleanCode修改 * 【修改说明】cleanCode修改
-[33m40638f6[m "fix review"
-[33mbac4805[m 【修改说明 Modification】检视意见
-[33mc7795f6[m Merge remote-tracking branch 'release/master' into faultmanager-ut
-[33m22592f8[m 【修改说明 Modification】测试一张卡上不同类型的故障确实会产品两条DeviceFault数据。
-[33mc699014[m 【修改说明 Modification】dp上报的fault time、fault level 有时不存在,需要打印日志
-[33m719cf7f[m !138 优雅容错部分微重构 * 【修改说明】 * 【修改说明】 * 【修改说明】微重构 * 【修改说明】微重构
-[33mef0a55b[m 【修改说明 Modification】删除超出PR上限的代码
-[33m36a3222[m 【修改说明 Modification】合并device上的故障信息的时候,应该要根据CardUnhealthy和CardNetworkUnhealthy分类。
-[33m0ac68bf[m !143 【修改说明 Modification】dp上报的fault time 有时不存在,需要打印日志 * 【修改说明 Modification】debug fault time
-[33m9deba59[m !142 【修改说明】step重计算失败后499返回码补杀pod * fix * fix * Merge remote-tracking branch 'upstream/master' * fix * fix
-[33m7570c7a[m "patch"
-[33m8546de5[m "patch"
-[33mf868678[m "patch"
-[33m92d05f4[m "ranktable adds status for cm and file"
-[33md1666aa[m !140 【修改说明 Modification】整机全调度场景过程优化 Merge pull request !140 from wangjun/master
-[33m8edc184[m 【修改说明 Modification】faultmanager ut
-[33m4d7ad8e[m "ranktable state machine, optimize cyclomatic complexity"
-[33m8ad5ec8[m 【修改说明 Modification】整机全调度场景过程优化
-[33mce126cd[m !120 更新npu和1520故障码 Merge pull request !120 from zhoupan39/master
-[33mf3cfc86[m "ranktable state machine, optimize cyclomatic complexity"
-[33me86d8ba[m !134 【修改说明】索引为0时可以删除故障卡 Merge pull request !134 from getee0506/cqe
-[33mb400556[m Merge remote-tracking branch 'origin/master'
-[33m677df8b[m "ranktable state machine, "
-[33m9800f12[m !136 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。 Merge pull request !136 from lirui238/develop
-[33m38a6bf3[m Merge branch 'master' of gitee.com:ascend/mindxdl into master
-[33mbd963ff[m 更新npu和1520故障码
-[33mb1acb28[m "ranktable state machine, lock ranktable write process"
-[33m94362ca[m 【修改说明 Modification】将faultshoot修改为faultmanager,删除不必要的排序。
-[33m370cede[m !132 【修改说明】进程级恢复支持预刷新故障 * fix * fix
-[33mf5a39ea[m "ranktable state machine, lock ranktable write process"
-[33m9f696fa[m 【修改说明】cqe error后,隔离linkdown的卡
-[33m8a21cc5[m !117 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 *fix * Merge branch 'gpx' of https://gitee.com/guopengxin/mindxdl into gpx * Merge https://gitee.com/guopengxin/mindxdl into gpx * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关 * 【修改说明】device-plugin 设置SetSlowNodeNoticeEnv开关
-[33md2be1eb[m "ranktable state machine"
-[33m56cc382[m !124 【修改说明】cleancode修改 * 【修改说明】npu-exporter适配高版本GCC编译
-[33m507cf29[m !121 noded组件依赖从npu-exporter切换到ascendcommon Merge pull request !121 from zhoupan39/dependency_change
-[33md554b6f[m !123 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。 Merge pull request !123 from lirui238/develop
-[33m37ca6b8[m !126 【修改说明 Modification】HBM UCE场景支持 bug修复 * 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。
-[33ma65b81d[m !113 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * Merge branch 'master' of https://gitee.com/ascend/mindxdl into cqe * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡 * 【修改说明】cqe error后,隔离linkdown的卡
-[33mce74fd9[m 【修改说明 Modification】将必要初始化的服务提前,防止使用的时候报空指针异常。
-[33mc87949c[m noded组件依赖从npu-exporter切换到ascendcommon
-[33m2c93012[m 【修改说明】clean_code修改-修改检视意见
-[33ma332b5b[m 【修改说明】clean_code修改-修改检视意见
-[33me451451[m 【修改说明】clean_code修改-锁释放避免跨函数调用
-[33mcb68971[m 【修改说明】clean_code修改-恢复
-[33m1e772c0[m support pod that has multiple containers and only one of containers has NPU
-[33mbab39e3[m fix getVirTemplate to pass golangcli-lint
-[33m977e472[m 【修改说明】clean_code修改-命名风格一致
-[33m4c1bf6e[m 【修改说明】clean_code修改-导入包避免取别名
-[33mee37d0f[m Merge branch 'master' of gitee.com:dongpeng30/mindxdl into clean_code
-[33mcfe2e49[m Merge remote-tracking branch 'upstream/master'
-[33m8487bc9[m !116 【修改说明】cleanCode修改 * 【修改说明】clean_code修改
-[33me5763b0[m "ranktable state machine"
-[33m623bdff[m Merge remote-tracking branch 'origin/clean_code' into clean_code
-[33me611f6e[m 【修改说明】clean_code修改-关闭资源、err处理
-[33m616e048[m 【修改说明】clean_code修改-避免使用全局变量
-[33mabd4fb5[m 【修改说明】clean_code修改-变量被使用时才声明并初始化
-[33md3ad121[m 【修改说明】clean_code修改-敏感字样修改
-[33mfdeec0b[m 【修改说明】clean_code修改
-[33mfd94543[m Merge remote-tracking branch 'upstream/master'
-[33m4a2e2ac[m !119 【修改说明 Modification】HBM UCE场景支持 bug修复 * 499 use exit strategy * clean code * test case * name * test case * report fault level for each event * resign processor of jobFaultRank
-[33m6deb4e6[m 【修改说明】clean_code修改-关闭资源、err处理
-[33m7aa16c2[m 【修改说明】clean_code修改-避免使用全局变量
-[33m5b0d880[m 【修改说明】clean_code修改-变量被使用时才声明并初始化
-[33m1910a8c[m 【修改说明】clean_code修改-敏感字样修改
-[33m2b8d1d8[m !110 【ascend operator】自动创建ranktable文件路径,仅支持hostpath Merge pull request !110 from YangLei/master
-[33m770af95[m "patch"
-[33m186b16d[m 【修改说明】clean_code修改
-[33m40cde25[m "patch"
-[33mb0dcc6f[m "patch"
-[33m2ba5e7f[m "patch"
-[33md89baf6[m "check directory"
-[33m4416dd2[m "patch"
-[33md60c966[m 解决冲突
-[33m7024c53[m !107 【修改说明】减少clusterd状态机锁范围 * Merge branch 'master' of gitee.com:ascend/mindxdl into lock
-[33m50e178c[m !108 【修改说明 Modification】HBM UCE场景支持 Merge pull request !108 from lirui238/device-plugin-faulttimeV2
-[33maa40c41[m clean code
-[33m1ba9644[m fault time
-[33mac47806[m "patch"
-[33m0aac697[m clean code
-[33m297f90e[m clean code
-[33m61a46ae[m 【修改说明】clean_code修改
-[33m397c6ef[m "patch"
-[33m3ed3ee4[m "patch"
-[33mc119b83[m "patch"
-[33m3864aa4[m 【修改说明】clean_code修改
-[33m7d2456f[m 【修改说明】clean_code修改-格式化代码恢复
-[33md1dc5e4[m 【修改说明】clean_code修改-格式化代码恢复
-[33maa7090b[m 【修改说明】clean_code修改-格式化代码恢复
-[33m6931594[m "patch"
-[33m790ad3d[m 【修改说明】clean_code修改-文件名不能包含大写
-[33m6f29db3[m "patch"
-[33mc5cf91b[m "patch"
-[33m11e21f9[m Merge commit 'e2b662ec'
-[33me2b662e[m 【修改说明】clean_code修改-解决冲突
-[33mf39b4be[m 【修改说明】clean_code修改-单行不超过120个字符;导出标识符要有注释
-[33md018c31[m 【修改说明】clean_code修改-恢复volcano中误删的导包
-[33mabc08a1[m Merge branch 'master' of https://gitee.com/yang-lei_1_0/mindxdl
-[33m580bd9b[m "patch"
-[33mebed08d[m Merge branch 'master' of gitee.com:ascend/mindxdl into master
-[33mbc8aaab[m 【修改说明】clean_code修改-所有导出的标识符要有注释、文件头包含版权信息、要有包注释、下标越界等
-[33m764e436[m "fix check op"
-[33mc45492e[m clean code
-[33mc59a49d[m !76 npu-exporter公共代码提取 Merge pull request !76 from zhoupan39/master
-[33m6e86fe4[m 【修改说明】clean_code修改-G.CMT.01 文件头注释必须包含版权说明、G.CMT.02 每个包都应该有包注释
-[33m6294352[m fault time
-[33m5db26dd[m 【修改说明】clean_code修改-所有go文件格式化
-[33m0da9bb3[m build_all.sh脚本执行过程跳过编译ascend-common组件
-[33mcfc9487[m fault time
-[33mc44a17d[m marshal
-[33m0e677df[m !114 【修改说明】dp处于热复位时忽略1520故障 Merge pull request !114 from fengjianqing/sw
-[33m126be37[m !111 修复pod缓存更新错误的问题 * 【修改说明】pod缓存更新错误问题修复
-[33m46e8162[m "patch"
-[33m985d759[m 【修改说明】dp处于热复位时忽略1520故障
-[33m8c17885[m !112 【修改说明 Modification】不处理不使用NPU卡的任务 Merge pull request !112 from Atlas_zxp/master
-[33m7086cf4[m "patch"
-[33mf9c32de[m log
-[33m0eace61[m 【修改说明】clean_code修改
-[33md2f39b5[m 修改readme描述
-[33m34a9af6[m 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m9e205f8[m "patch"
-[33m7faffdc[m "patch"
-[33med793e7[m !109 npu-exporter、dp适配高版本gcc编译 * 【修改说明】device-plugin适配高版本GCC编译 * 【修改说明】npu-exporter适配高版本GCC编译
-[33m7e662e6[m "patch"
-[33m8a566b2[m 修改readme描述
-[33m58019b2[m add 310p
-[33m1918bd0[m npu-exporter公共代码提取
-[33m20d43cc[m 【修改说明 Modification】不处理不使用NPU卡的任务 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m4cfa7d1[m "patch"
-[33mc611a9e[m "patch"
-[33m3ecdeb0[m Merge remote-tracking branch 'release/master' into device-plugin-faulttimeV2
-[33m15e57ea[m "auto mkdir for ranktable file"
-[33maba84f6[m 【修改说明】device-plugin适配高版本GCC编译
-[33m8e48397[m 【修改说明】npu-exporter适配高版本GCC编译
-[33mf2d6f75[m log
-[33m788f844[m provide getJobFaultRankInfosFilterLevel for state-machine
-[33m2abc957[m device-plugin report all fault time
-[33mc2839d0[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
-[33m32fa373[m remove fault time report
-[33made4aee[m !96 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障 * 【修改说明】dp处于热复位时忽略1520故障
-[33mcae72e5[m !88 【修改说明 Modification】clusterd&master pod svc ip获取优化 Merge pull request !88 from 李鸣沼/log-fix
-[33mc1943c4[m device-plugin report all fault time
-[33ma5016f5[m !106 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !106 from lirui238/bug-fix
-[33m832fb08[m bug fix
-[33mdeb72e0[m !77 【修改说明 Modification】deployment任务适配superPod Merge pull request !77 from Atlas_zxp/master
-[33mc424d5c[m 【修改说明】clusterd&master pod svc ip获取优化
-[33m3f3f057[m !103 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !103 from lirui238/uce-bug
-[33mec1d287[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m12dcd8c[m log readable
-[33mc35b2ba[m bug fix
-[33m955aabb[m !101 【修改说明 Modification】HBM UCE场景支持 bug修复 Merge pull request !101 from lirui238/uce-bug
-[33m17d12d7[m split commit pr3
-[33md7da38f[m !99 【修改说明】AI平台相关代码已经grpc service代码合入 * AI平台相关代码已经grpc service代码合入
-[33mc5ce5a9[m !95 【修改说明 Modification】HBM UCE场景支持 PR3 Merge pull request !95 from lirui238/uce
-[33m45ece41[m split commit pr3
-[33mc7fb148[m split commit pr3
-[33m24c6e01[m Merge branch 'master' into uce-pr1
-[33m2542038[m split commit pr3
-[33meae098b[m !94 【修改说明】90pr拆分部分代码合入 * fix
-[33m1b6408a[m !90 【修改说明】进程级恢复主逻辑controller代码 * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * fix * change max line length * fix * add main process recover logic
-[33mbb9e397[m !92 【修改说明 Modification】HBM UCE场景支持 Pr2 * split commit pr2 * Merge branch 'master' into uce-pr1 * split commit pr2 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete
-[33maf5d7a5[m split commit pr2
-[33m8866943[m Merge branch 'master' into uce-pr1
-[33m7946f8f[m split commit pr2
-[33mb9a9049[m !83 【修改说明 Modification】HBM UCE支撑 * split commit pr1 * Merge remote-tracking branch 'origin/master' into uce * all test commit * Restore Volcano Changes * debug: channel buffer and processLimit * judge job is uce * refactor and pass test * refactor * refactor * delete test * Merge branch 'master' into uce * micro refactor * log + job fault rank processor test * split device faults * package refactor * informer+jobFaultRankList * Merge branch 'master' into uce * corrent time error * uce accompany fault (aic aiv) processor, test pass * mindio report callback only report jobid rankid; uce fault code=80E01801 * device plugin report fault time * second complete, test pass * first complete
-[33m1a0cc58[m split commit pr1
-[33me1a0ca3[m Merge remote-tracking branch 'origin/master' into uce
-[33mef6c0de[m all test commit
-[33m03bab58[m Restore Volcano Changes
-[33m5f5e64c[m debug: channel buffer and processLimit
-[33m35baf95[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
-[33m16c3dd4[m !87 【修改说明】进程级恢复重构需求合入基础数据类型以及common utils相关代码 * fix * fix * fix * submit base code
-[33m89b08b4[m "patch"
-[33mec48820[m Merge remote-tracking branch 'origin/master' into log-fix
-[33mfcda9ae[m "add env for rescheduling"
-[33m879ad59[m 【修改说明】clusterd&master pod svc ip获取优化
-[33m3380de4[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
-[33m00ac169[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33me3bf498[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m1a0e466[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m18ecab2[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m0871be3[m judge job is uce
-[33m237ae8b[m refactor and pass test
-[33mcea9810[m !80 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务,schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片 * 【修改说明 Modification】[ascend-operator]适配单机多卡ms训练任务schedule挂载芯片
-[33m9755444[m !79 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改检视意见 * 【修改说明】修改检视意见 * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】修改telegraf入参校验方式,支持指定hccs实时带宽采样时长; * 【修改说明】hwlog增加重复打印限制 * 【修改说明】dt * 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次
-[33md20a7a3[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m42c4ff9[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m61c7fde[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m99657c3[m refactor
-[33mada6c17[m refactor
-[33m98c0583[m delete test
-[33mef2f60d[m Merge branch 'master' into uce
-[33m9c5d910[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m6328dce[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m4dc306f[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mc6cbc1e[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33md86fbe1[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m6959b2f[m micro refactor
-[33m450cde8[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mc609418[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m5cc9169[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mb6179fc[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m3ecc3c2[m 【修改说明 Modification】superPod适配deployment 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m86a815c[m !74 【修改说明 Modification】减少clusterD中锁的粒度 * 降低所有锁的粒度,防止锁嵌套
-[33m1d1ce9a[m Merge branch 'master' of https://gitee.com/shepherd_cheung/mindxdl
-[33m932a8db[m log + job fault rank processor test
-[33m0f58d1f[m split device faults
-[33m90f0fc3[m package refactor
-[33m94c4c34[m informer+jobFaultRankList
-[33mac2d319[m !72 【ascend operator】支持configmap和共享文件同时存在 Merge pull request !72 from YangLei/cm_file
-[33m6bd5bef[m "patch"
-[33mcf4a1bb[m "patch"
-[33m8a2fd50[m !73 【ascend operator】configmap增加version字段,用于热复位 * "timestamp as version" * "add version to configmap"
-[33m6333778[m "patch"
-[33mc3a5b10[m !69 【修改说明】hccs信息获取失败时打印err信息不超过3次 * 【修改说明】hccs信息获取失败时打印err信息不超过3次
-[33m64ac46d[m "patch"
-[33mffbdb51[m "timestamp as version"
-[33mb20c6d6[m "patch"
-[33mf90c2d0[m "add version to configmap"
-[33m5ce24fe[m "configmap and file both exist"
-[33mf4c581e[m !71 【Ascend operator】operator支持mindspore使用ranktable Merge pull request !71 from YangLei/master
-[33m6c166a9[m Merge branch 'master' into uce
-[33m176d153[m corrent time error
-[33m218aae0[m "not use npu log"
-[33m9b03758[m "mindspore ranktable 02"
-[33me6f3a58[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
-[33ma471295[m !55 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题 Merge pull request !55 from 李鸣沼/log-fix
-[33m64bbce7[m !59 noded支持NPU MCE/AER故障上报 * 【修改说明】noded支持NPU MCE/AER故障上报
-[33mc6f8fd7[m uce accompany fault (aic aiv) processor, test pass
-[33m9176cdc[m 【修改说明】修复关键日志被截断问题
-[33m2b525b6[m mindio report callback only report jobid rankid; uce fault code=80E01801
-[33m79d7636[m !60 operator支持vcjob重调度 * "vcjob rescheduling"
-[33ma37967f[m "patch"
-[33mf074bdb[m "patch"
-[33m6c55524[m "patch"
-[33m927db7e[m "rename import"
-[33mff11b80[m "patch"
-[33m1ca72fc[m "new file"
-[33m5501637[m "patch"
-[33mb52345e[m "patch"
-[33mb5861d0[m device plugin report fault time
-[33m32615f2[m "patch"
-[33m7434c74[m "patch"
-[33m19d8d76[m "delete hccl.json"
-[33m9985d56[m "patch"
-[33m121e188[m "patch"
-[33mb226dba[m "check status"
-[33m3ef86fd[m second complete, test pass
-[33me0bea3e[m "patch"
-[33md8cdc06[m "patch"
-[33mdf3315c[m "patch"
-[33ma30d2c8[m "vcjob rescheduling"
-[33m5daeaf2[m !57 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod * 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod
-[33m31064f3[m !53 hccl controller收编 * rkt for tensorFlow and MIndSpore
-[33maea1992[m !41 operator支持mindspore使用ranktable Merge pull request !41 from YangLei/master
-[33m17486e8[m Merge branch 'master' of gitee.com:ascend/mindxdl into hostIp
-[33m0d7b6b0[m Merge branch 'master' of gitee.com:ascend/mindxdl into hccl
-[33m69e9751[m !32 展示最近的重调度记录 * 获取最近10条重调度记录
-[33mfaf93a9[m !44 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 Merge pull request !44 from wangjun/master
-[33mb6fdada[m 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33me051c2b[m 【修改说明 Modification】[ascend-operator]支持使用物理机ip的方式启动Pod 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33m18289e0[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33mc5c66ce[m "fix codeCheck"
-[33m249498d[m "acjob save configmap"
-[33m798fac7[m "patch"
-[33mb6ba244[m "configmap key"
-[33m523deb9[m "patch"
-[33m13d3e41[m "const for get pod"
-[33m18ef494[m !49 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片 * 【修改说明】NPUL3故障自愈失败,升级到L5复位芯片
-[33m676ff42[m 【修改说明】修复日志被截断导致重要错误信息丢失无法排查问题
-[33m278dc87[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33m4c73f52[m !54 修改raedme及构建脚本 Merge pull request !54 from luxiang6/comm_repo
-[33m244c30f[m "decimal const"
-[33mf6f3c05[m "add consts"
-[33m28d4024[m "patch"
-[33mcacb9dc[m "patch"
-[33m5e0c92e[m "patch"
-[33md618f16[m "patch"
-[33m649dd57[m "patch"
-[33mb38488e[m "patch"
-[33ma5f388c[m "write rank index patch"
-[33m28630bf[m "get rankIndex for deploy"
-[33m0933676[m "decorate deployment"
-[33m5b31631[m "ckeck replicas len"
-[33me2c9aa4[m "add clusterRole for deploy"
-[33mf7a8159[m "watch deployment"
-[33me807149[m "patch"
-[33md2188be[m "add interface ToString() "
-[33m3a04cc2[m "ranktablepipeline"
-[33mb71d098[m !52 【修改说明】修复重调度,误删mindspore的scheduler的pod * 【修改说明】修复重调度,误删mindspore的scheduler的pod
-[33mcdc4dd8[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33mbdab850[m readme&构建脚本修改
-[33m2e2c094[m "patch"
-[33m6ed0927[m "patch"
-[33m303b837[m first complete
-[33m7a3c89c[m "patch for vcjob config map"
-[33m3a3bb50[m "add scheme fof vcjob and deploy"
-[33m890da10[m "vcjob write configmap"
-[33mbf28f87[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33m676e215[m "bad import "
-[33m737cabd[m "backoff to master"
-[33m340d9d8[m "merge hccl for vcjob with hccl.json mount"
-[33m034c862[m "test branch"
-[33m92a972e[m !51 【修改说明】clusterd 适配x1平台volcano1.2 pgName不能由jobName+jobId拼凑的问题 * fix * fix * fix * fix * separate jobid pgid jobname pgname
-[33m49d57c4[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33mbf1c634[m "patch"
-[33mad7931d[m !50 【修改说明】dp修复动态切分不上报卡故障 Merge pull request !50 from fengjianqing/master
-[33m0e215b8[m 【修改说明】dp修复动态切分不上报卡故障
-[33m7075415[m "not add pod without rkt"
-[33m46ec172[m "rename const"
-[33m66f9d0c[m "func podUseNpu"
-[33m76f2c51[m "operator for mindspore ranktable"
-[33mb6a5215[m Merge branch 'master' of https://gitee.com/ascend/mindxdl
-[33mf9ea22a[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33m20670e2[m !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix * fix * fix
-[33mf1ed8f9[m !47 【修改说明】修复清理grpc资源时,不能清理acjob的bug * fix
-[33md54616d[m !48 【修改说明】npu-exporter 增加LargelimitListener功能 * fix code * fix * add large listener
-[33m3d7ed6d[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33m54dca92[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33mfb258d1[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片 【修改人 Modifier】wangjun 【评审人 Reviewer】luxiang6
-[33m34c516e[m !39 【修改说明】clusterd 修复AI平台对接相关逻辑(stopComplete后再写confirmfault, 更新恢复结果annotation以实际选择的最后策略为准) * fix platform logic
-[33m37f6105[m !40 【修改说明】clusterd限制支持节点数和作业个数,从而限制cmManager大小和bsWorker大小 Merge pull request !40 from tiankaijin/dts862
-[33me5e4282[m !43 加固clusterd容器安全配置 Merge pull request !43 from weihaoran/clusterd_yaml
-[33m5fb9645[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
-[33mdd70325[m !45 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件 * 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
-[33mb68b3a6[m !23 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户 * 【修改说明 Modification】删除hwMindX用户
-[33m80c3784[m !42 【修改说明】调整clusterd pod增删改时日志记录级别 * 【修改说明】刷屏日志调整
-[33m11ac7c5[m !33 dp最小级修复 * 最小集检测修复
-[33m29f386a[m 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mffd017b[m fix
-[33md36fb00[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
-[33m1ec752b[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
-[33mc2f3419[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
-[33m90451fe[m Revert "【修改说明】调整clsterd pod增删改时日志记录级别"
-[33m7037777[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
-[33mea04af4[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
-[33m816d146[m 【修改说明】调整hccs、hccsbw指标上报,采集失败时上报-1,errorCode超过10个时打印到日志文件
-[33mcf377b1[m fix
-[33md05bc65[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
-[33m4197792[m 【修改说明 Modification】删除hwMindX用户 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33me54e02d[m fix
-[33mceb4668[m 【修改说明】加固clusterd容器安全配置
-[33m211d0f7[m fix
-[33mdd14c42[m 【修改说明】调整clsterd pod增删改时日志记录级别
-[33m2b44d18[m 【修改说明 Modification】支持mindspore任务的scheduler容器挂载芯片
-[33m60be355[m !37 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 Merge pull request !37 from lirui238/seccomp-config
-[33m11f92f3[m 【修改说明 Modification】在DL组件的启动YAML中提供securityContext的seccomp配置方式,但是注释掉。然后开放原来annotations配置seccomp的方式,保证K8S新老版本都能够启动。 【修改人 Modifier】lirui238 【评审人 Reviewer】luxiang6
-[33m1ef69b6[m fix
-[33md2d72a2[m limit bsworker and cmManager length
-[33me868818[m rkt for tensorFlow and MIndSpore
-[33m6726f95[m !36 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 Merge pull request !36 from Atlas_zxp/delete-x11
-[33m68713dc[m !38 【修改说明】clusterd grpc支持限制qps Merge pull request !38 from tiankaijin/qps_limit
-[33m903da2f[m 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33mc73824f[m fix
-[33md22ff75[m fix
-[33m66316bc[m fix
-[33m32efd82[m fix
-[33m5c05ee0[m !34 【修改说明】cluster grpc支持资源清理和注册校验 Merge pull request !34 from tiankaijin/clean_grpc_resource
-[33m7be3e1e[m 【修改说明 Modification】docker-runtime去掉run包中连接x11服务的功能 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m5023a52[m fix
-[33ma45fb68[m fix
-[33m7e8d55b[m !35 【修改说明】进程级回复增加等待调度时间 Merge pull request !35 from tiankaijin/wait_pg_running
-[33mb341094[m fix
-[33m7e6e8ba[m !31 优化clusterd权限 Merge pull request !31 from weihaoran/clusterd_user
-[33m347dbca[m fix
-[33m633ebd4[m fix
-[33ma7e99f6[m !18 1520故障码映射同步修改 * 同步rc3修改
-[33me7d09de[m 【修改说明】优化clusterd权限
-[33mb3fa1aa[m cleancode魔鬼数字修改
-[33mfac229f[m !30 【修改说明】修复clusterd 全0监听问题 * fix zero listen
-[33mca16ec6[m cleancode
-[33md9ca767[m cleancode
-[33m5ebef89[m !29 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token Merge pull request !29 from Atlas_zxp/delete-token
-[33mb2de16f[m 同步rc3修改
-[33m1537f58[m 修改cleancode
-[33m21aeb40[m 【修改说明 Modification】npu-exporter设置automountServiceAccountToken=false,不挂载token 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m2aa7824[m !26 开启N秒快恢功能,单独发生80CB8009故障,故障不上报 Merge pull request !26 from zhoupan39/master
-[33mc4c7d6c[m !25 【修改说明】pytorch 优雅退出参数和 ms 保持一致 Merge pull request !25 from tiankaijin/tkj_volcano
-[33mb4ba48c[m !28 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题 * 【修改说明】修复310P 获取vnpu失败时指标上报异常问题;修复多个vnpu时数据错误问题
-[33m513a62a[m !27 修改clusterd默认日志文件 Merge pull request !27 from weihaoran/clusterd_log
-[33mbd1d800[m 【修改说明】修改clusterd默认日志文件
-[33mb5e31de[m 【修改说明】修改clusterd默认日志文件
-[33med9bdfe[m !19 【修改说明 Modification】更新统一编译说明及build脚本 * update build
-[33m5fbec6e[m 保持pt和ms框架优雅退出参数名一致
-[33maaf6bc5[m 开启N秒快恢功能,单独发生8009故障,故障不上报
-[33md949dab[m !22 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED * 【修改说明 Modification】volcano开启CGO_ENABLED
-[33m89d2331[m !21 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦
-[33mcc8fc2e[m !17 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 Merge pull request !17 from Atlas_zxp/master
-[33m2bb58fb[m !16 指标对齐 * 【修改说明】telegraf增加currentFreq、voltage采集、进程信息采集;修改promethus中errorCode上报方式…
-[33m31aeda9[m !20 /var/queue_schedule添加白名单 Merge pull request !20 from YangLei/master
-[33m70b72d2[m add /var/queue_schedule to whitelist
-[33mb3be6aa[m !14 修改clusterd默认用户 * 【修改说明】修改clusterd默认用户
-[33mc44e28f[m !15 修复clusterd空指针解引用问题 Merge pull request !15 from weihaoran/clusterd_panic
-[33mb99ad79[m 新仓同步修改
-[33mcb3cc9d[m !10 增加挂载路径适配HDK升级24.1.RC2 Merge pull request !10 from YangLei/master
-[33m12315f7[m !11 【修改说明 Modification】volcano代码同步 * 【修改说明 Modification】volcano代码同步
-[33meb05dca[m !9 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时 * 【修改说明 Modification】修复pcie掉卡导致网络相关指标查询超时
-[33mcac43db[m !12 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦 * 【修改说明 Modification】volcano支持进程级调度与pod级别调度标签解耦
-[33m88db0ce[m 【修改说明 Modification】设置CGO_ENABLED,解决栈保护未开启问题 【修改人 Modifier】Atlas_zxp 【评审人 Reviewer】luxiang6
-[33m7cd0929[m !13 同步分支代码 Merge pull request !13 from luxiang6/sync_code
-[33m97ea507[m 【修改说明】修复空指针解引用问题
-[33mb9b8e81[m 同步代码
-[33mefd9df8[m add mount path /var/queue_schedule
-[33m67c464e[m !8 【修改说明 Modification】clusterd更新readme及build Merge pull request !8 from chentian/master
-[33m891aca4[m Merge branch 'master' of gitee.com:chentian007/mindxdl
-[33mf7fd266[m update clusterd readme
-[33mc59600e[m update clusterd readme
-[33me21cb07[m update clusterd readme
-[33m64763b3[m update clusterd build
-[33m2147533[m !5 【修改说明 Modification】clusterd代码合并及统一构建出包build脚本 * add build_all.sh * 新增clusterd组件
-[33m81e7ef3[m fix codecheck
-[33m53dc253[m update
-[33mecbc82d[m add build
-[33m711c366[m fix clusterd DT bug
-[33ma2e3d9c[m fix cleancode bug
-[33m1d19ddc[m fix cleancode bug
-[33mcfe591b[m add build
-[33m9b10496[m add build
-[33m367e094[m add build
-[33m7f6ee55[m add build
-[33m90096d3[m add build_all.sh
-[33mdde9e35[m 新增clusterd组件
-[33m9445198[m 新增clusterd组件
-[33ma2ee6e7[m 新增clusterd组件
-[33med4978e[m 新增clusterd组件
-[33me57db23[m 新增clusterd组件
-[33m47f496c[m 新增clusterd组件
-[33maa01a34[m 新增clusterd组件
-[33mf88bd27[m !4 代码仓归一+cleancode整改 Merge pull request !4 from luxiang6/cleancode
-[33m582a3c6[m Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode
-[33m8aead81[m update OWNERS.
-[33m5016570[m cleancode修改
-[33m7dddf8a[m cleancode修改
-[33m3617bf5[m cleancode修改
-[33me95fdbf[m cleancode修改
-[33m2ca5b7c[m Merge branch 'master' of gitee.com:ascend/mindxdl into cleancode
-[33m67918d2[m update OWNERS.
-[33m3997739[m cleancode修改
-[33mcf27c77[m cleancode修改
-[33m149b8f9[m Merge branch 'master' of gitee.com:ascend/mindxdl into master
-[33ma12accf[m add OWNERS.
-[33m4546883[m 代码仓归一
-[33ma40d318[m 代码仓归一
-[33md894bbc[m 代码仓归一
-[33m57f1d8e[m 代码仓归一
-[33m3ed63d6[m 代码仓归一
-[33m7dcd4fa[m 代码仓归一
-[33m53101e6[m 代码仓归一
-[33m4405b33[m[33m ([m[1;33mtag: v6.0.0-RC2[m[33m, [m[1;33mtag: v6.0.0-RC1[m[33m, [m[1;33mtag: v5.0.1[m[33m, [m[1;33mtag: v5.0.0[m[33m)[m Initial commit
--
Gitee
From cc317e790a28ce0f4b1a4fbd55c8d0361b9028b3 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Wed, 9 Apr 2025 10:00:31 +0800
Subject: [PATCH 04/14] =?UTF-8?q?=E6=B3=A8=E9=87=8A=E6=94=B9=E6=88=90?=
=?UTF-8?q?=E8=8B=B1=E6=96=87?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
component/ascend-device-plugin/pkg/common/fault_code.go | 8 +++-----
1 file changed, 3 insertions(+), 5 deletions(-)
diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go
index 77d8550e6..8ea692705 100644
--- a/component/ascend-device-plugin/pkg/common/fault_code.go
+++ b/component/ascend-device-plugin/pkg/common/fault_code.go
@@ -124,7 +124,7 @@ var (
RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault)
// NetworkFaultCodes is a set that contains all the network fault codes
NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode)
- faultTriggerChan = make(chan struct{}, 1)
+ faultTriggerChan = make(chan struct{}, 1)
)
// fault customization
@@ -1185,13 +1185,11 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) {
devFaultInfoMapLock.Lock()
devFaultInfoMap[devFaultInfo.LogicID] = append(devFaultInfoMap[devFaultInfo.LogicID], devFaultInfo)
devFaultInfoMapLock.Unlock()
-
- // 触发故障处理
+
select {
case faultTriggerChan <- struct{}{}:
hwlog.RunLog.Debug("Triggered fault processing")
default:
- // 如果通道已满,说明已经有故障在处理中
hwlog.RunLog.Debug("Fault processing is already in progress")
}
}
@@ -1679,7 +1677,7 @@ func GetFrequencyFaultLevelAndCodes(mode string, logicId int32) map[int64]FaultT
return result
}
-// GetFaultTriggerChan 获取故障触发通道
+// GetFaultTriggerChan get fault trigger chan
func GetFaultTriggerChan() chan struct{} {
return faultTriggerChan
}
--
Gitee
From 47c13cf1f94ccbe00d63d202655d390ea068093c Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Wed, 9 Apr 2025 10:20:47 +0800
Subject: [PATCH 05/14] fix codecheck
---
component/ascend-device-plugin/pkg/server/manager.go | 2 +-
1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 65970d138..0fd9b28f8 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -28,7 +28,7 @@ import (
"github.com/containerd/containerd"
"github.com/fsnotify/fsnotify"
- v1 "k8s.io/api/core/v1"
+ "k8s.io/api/core/v1"
"k8s.io/apimachinery/pkg/util/wait"
"k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1"
--
Gitee
From c14e354c15086ddcec11c6a550b29cbf95a95851 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Fri, 11 Apr 2025 15:49:32 +0800
Subject: [PATCH 06/14] fix review
---
.../ascend-device-plugin/pkg/common/fault_code.go | 12 +++++++++++-
component/ascend-device-plugin/pkg/server/manager.go | 3 +--
.../pkg/reporter/cmreporter/configmap_reporter.go | 5 +++--
component/noded/pkg/reporter/reporter_manager.go | 2 +-
4 files changed, 16 insertions(+), 6 deletions(-)
diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go
index 8ea692705..9ae9b6316 100644
--- a/component/ascend-device-plugin/pkg/common/fault_code.go
+++ b/component/ascend-device-plugin/pkg/common/fault_code.go
@@ -82,6 +82,8 @@ const (
PollingInterval time.Duration = DefaultPollingInterval
// SubHealthFault subHealth code
SubHealthFault = "SubHealthFault"
+ // writeInterval is the interval time used in writing fault chan
+ writeInterval = time.Second
)
var (
@@ -124,7 +126,10 @@ var (
RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault)
// NetworkFaultCodes is a set that contains all the network fault codes
NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode)
- faultTriggerChan = make(chan struct{}, 1)
+ // faultTriggerChan is a channel to trigger device info update
+ faultTriggerChan = make(chan struct{}, 1)
+ // lastWriteTime previous write time
+ lastWriteTime time.Time
)
// fault customization
@@ -1186,8 +1191,13 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) {
devFaultInfoMap[devFaultInfo.LogicID] = append(devFaultInfoMap[devFaultInfo.LogicID], devFaultInfo)
devFaultInfoMapLock.Unlock()
+ if time.Since(lastWriteTime) < writeInterval {
+ hwlog.RunLog.Debug("It has been less than one second since the last processing. Skipping processing.")
+ return
+ }
select {
case faultTriggerChan <- struct{}{}:
+ lastWriteTime = time.Now()
hwlog.RunLog.Debug("Triggered fault processing")
default:
hwlog.RunLog.Debug("Fault processing is already in progress")
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 0fd9b28f8..0401bb3bc 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -28,7 +28,7 @@ import (
"github.com/containerd/containerd"
"github.com/fsnotify/fsnotify"
- "k8s.io/api/core/v1"
+ v1 "k8s.io/api/core/v1"
"k8s.io/apimachinery/pkg/util/wait"
"k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1"
@@ -442,7 +442,6 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
defer ticker.Stop()
- // 使用全局故障触发通道
faultTrigger := common.GetFaultTriggerChan()
for {
diff --git a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go
index 0bd4b4c08..ea9340d62 100644
--- a/component/noded/pkg/reporter/cmreporter/configmap_reporter.go
+++ b/component/noded/pkg/reporter/cmreporter/configmap_reporter.go
@@ -19,7 +19,7 @@ import (
"encoding/json"
"time"
- "k8s.io/api/core/v1"
+ v1 "k8s.io/api/core/v1"
metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
"ascend-common/api"
@@ -48,7 +48,8 @@ func NewConfigMapReporter(client *kubeclient.ClientK8s) *ConfigMapReporter {
// Report send fault device info by config map
func (c *ConfigMapReporter) Report(faultDevInfo *common.FaultDevInfo) {
- if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) {
+ if common.DeepEqualFaultDevInfo(faultDevInfo, &c.nodeInfoCache.NodeInfo) &&
+ time.Since(c.reportTime) < defaultReportInterval {
hwlog.RunLog.Debugf("node fault device info is not changed and report time is not reached, no need to report")
return
}
diff --git a/component/noded/pkg/reporter/reporter_manager.go b/component/noded/pkg/reporter/reporter_manager.go
index d088314d3..f1de7892c 100644
--- a/component/noded/pkg/reporter/reporter_manager.go
+++ b/component/noded/pkg/reporter/reporter_manager.go
@@ -62,7 +62,7 @@ func (r *ReportManager) Init() error {
func (r *ReportManager) Execute(faultDevInfo *common.FaultDevInfo) {
r.faultManager.SetFaultDevInfo(faultDevInfo)
for _, reporter := range r.reporters {
- reporter.Report(faultDevInfo)
+ go reporter.Report(faultDevInfo)
}
}
--
Gitee
From e618f8c44b4b769c6c364d6f79b7f66bb8f4e1e8 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Fri, 11 Apr 2025 15:50:48 +0800
Subject: [PATCH 07/14] codec
---
component/ascend-device-plugin/pkg/server/manager.go | 2 +-
1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 0401bb3bc..067bf75f2 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -28,7 +28,7 @@ import (
"github.com/containerd/containerd"
"github.com/fsnotify/fsnotify"
- v1 "k8s.io/api/core/v1"
+ "k8s.io/api/core/v1"
"k8s.io/apimachinery/pkg/util/wait"
"k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1"
--
Gitee
From 94f7794695674b835e6925d26774a4321f990f56 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Fri, 11 Apr 2025 16:27:29 +0800
Subject: [PATCH 08/14] revert clusterd
---
component/clusterd/pkg/common/constant/constants.go | 2 +-
1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/component/clusterd/pkg/common/constant/constants.go b/component/clusterd/pkg/common/constant/constants.go
index 971421367..87b49693f 100644
--- a/component/clusterd/pkg/common/constant/constants.go
+++ b/component/clusterd/pkg/common/constant/constants.go
@@ -80,7 +80,7 @@ const (
JobReportRecoverTimeout = 10 * 1000
JobReportInfoExpiredTimeout = 10 * 1000
JobReportCompleteTimeout = 30 * 1000
- FaultCenterProcessPeriod = 1 * 1000
+ FaultCenterProcessPeriod = 3 * 1000
MaxFaultCenterSubscriber = 10
UnknownFaultTime = -1
)
--
Gitee
From d7c3ac69b13384ef4e095820442e1f086e68b3e7 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Mon, 14 Apr 2025 10:01:56 +0800
Subject: [PATCH 09/14] dp debug
---
.../pkg/server/fault_constructor.go | 337 ++++++++++++++++++
.../pkg/server/fault_writer.py | 55 +++
.../pkg/server/manager.go | 3 +
3 files changed, 395 insertions(+)
create mode 100644 component/ascend-device-plugin/pkg/server/fault_constructor.go
create mode 100644 component/ascend-device-plugin/pkg/server/fault_writer.py
diff --git a/component/ascend-device-plugin/pkg/server/fault_constructor.go b/component/ascend-device-plugin/pkg/server/fault_constructor.go
new file mode 100644
index 000000000..df03dcc7e
--- /dev/null
+++ b/component/ascend-device-plugin/pkg/server/fault_constructor.go
@@ -0,0 +1,337 @@
+/* Copyright(C) 2024. Huawei Technologies Co.,Ltd. All rights reserved.
+ Licensed under the Apache License, Version 2.0 (the "License");
+ you may not use this file except in compliance with the License.
+ You may obtain a copy of the License at
+
+ http://www.apache.org/licenses/LICENSE-2.0
+
+ Unless required by applicable law or agreed to in writing, software
+ distributed under the License is distributed on an "AS IS" BASIS,
+ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ See the License for the specific language governing permissions and
+ limitations under the License.
+*/
+
+// Package server holds the implementation of registration to kubelet, k8s pod resource interface.
+package server
+
+import (
+ "context"
+ "encoding/json"
+ "errors"
+ "fmt"
+ "os"
+ "path/filepath"
+ "strconv"
+ "strings"
+ "sync"
+ "time"
+
+ "k8s.io/api/core/v1"
+
+ "Ascend-device-plugin/pkg/common"
+ "Ascend-device-plugin/pkg/kubeclient"
+ "ascend-common/common-utils/hwlog"
+ "ascend-common/common-utils/utils"
+ npuCommon "ascend-common/devmanager/common"
+)
+
+const (
+ // FaultEventCMName name of npu fault event configmap
+ FaultEventCMName = "mindx-dl-npu-fault-event"
+ // FaultEventCMNameSpace namespace of npu fault event configmap
+ FaultEventCMNameSpace = "kube-system"
+ // FaultEventFileKey key of loading npu faults
+ FaultEventFileKey = "npuFaultCM.json"
+ // FaultEventCMPollSecInterval interval of polling npu fault event configmap, unit:second
+ FaultEventCMPollSecInterval = 1
+ // FaultCacheSaveToDPMillInterval interval of saving cached npu fault to DP, unit:millisecond
+ FaultCacheSaveToDPMillInterval = 500
+ // ReInjectAllFaultsDefaultValue default value of re-injecting all faults in configmap
+ ReInjectAllFaultsDefaultValue = 1
+ // FaultEventFileAbsPath file absolute path of injecting fault event with file
+ FaultEventFileAbsPath = "/user/inject/fault/npuFaultFile.json"
+)
+
+var (
+ // faultCacheLock is used for devFaultCache which may be used concurrence
+ faultCacheLock sync.Mutex
+ devFaultCache []npuCommon.DevFaultInfo
+)
+
+type FaultInfo struct {
+ EventID string
+ LogicID int32
+ Severity int8
+ Assertion int8
+ TimeOffset []int64
+}
+
+type FaultDebugConfig struct {
+ Node string // When injecting faults through local files, this field does not work
+ PollInterval int64
+ ReInject int
+ Faults []FaultInfo
+}
+
+func (hdm *HwDevManager) constructNpuFaultByCm(ctx context.Context) {
+ hwlog.RunLog.Infof("start construct npu fault from cm or file")
+ if err := hdm.createFaultFile(); err != nil {
+ hwlog.RunLog.Errorf("create fault file fail, err: %v", err)
+ } else {
+ go hdm.loadFaultEventFromFile(ctx)
+ }
+ go hdm.pollFaultEventFromCm(ctx)
+ go hdm.saveCachedFaultToDP(ctx)
+}
+
+func (hdm *HwDevManager) createFaultFile() error {
+ dir := filepath.Dir(FaultEventFileAbsPath)
+ if !utils.IsExist(dir) {
+ if err := os.MkdirAll(dir, os.ModePerm); err != nil {
+ return fmt.Errorf("mkdir fail, err: %v", err)
+ }
+ }
+ defaultConfig := &FaultDebugConfig{
+ PollInterval: FaultEventCMPollSecInterval,
+ ReInject: 0,
+ }
+ return hdm.updateFaultInjectFile(defaultConfig)
+}
+
+func (hdm *HwDevManager) loadFaultEventFromFile(ctx context.Context) {
+ for {
+ select {
+ case _, ok := <-ctx.Done():
+ if !ok {
+ hwlog.RunLog.Info("stop signal channel closed")
+ }
+ hwlog.RunLog.Info("load fault event from file stop")
+ return
+ default:
+ interval := int64(FaultEventCMPollSecInterval)
+ config := hdm.readAndInjectFaultFromFile()
+ if config != nil && config.PollInterval > 0 {
+ interval = config.PollInterval
+ }
+ time.Sleep(time.Duration(interval) * time.Second)
+ }
+ }
+}
+
+func (hdm *HwDevManager) pollFaultEventFromCm(ctx context.Context) {
+ for {
+ select {
+ case _, ok := <-ctx.Done():
+ if !ok {
+ hwlog.RunLog.Info("stop signal channel closed")
+ }
+ hwlog.RunLog.Info("poll fault event from cm stop")
+ return
+ default:
+ interval := int64(FaultEventCMPollSecInterval)
+ config := hdm.pollAndInjectFaultFromCm()
+ if config != nil && config.PollInterval > 0 {
+ interval = config.PollInterval
+ }
+ time.Sleep(time.Duration(interval) * time.Second)
+ }
+ }
+}
+
+func (hdm *HwDevManager) saveCachedFaultToDP(ctx context.Context) {
+ for {
+ select {
+ case _, ok := <-ctx.Done():
+ if !ok {
+ hwlog.RunLog.Info("stop signal channel closed")
+ }
+ hwlog.RunLog.Info("save cached fault to dp stop")
+ return
+ default:
+ hdm.injectDevFaultToDp()
+ time.Sleep(time.Duration(FaultCacheSaveToDPMillInterval) * time.Millisecond)
+ }
+ }
+}
+
+func (hdm *HwDevManager) readAndInjectFaultFromFile() *FaultDebugConfig {
+ config, err := readFaultDebugFileJson()
+ if err != nil {
+ hwlog.RunLog.ErrorfWithLimit(FaultEventFileAbsPath, 1, "cannot load fault from '%s' file, reason: %v", FaultEventFileAbsPath, err)
+ return nil
+ }
+ if config.ReInject != ReInjectAllFaultsDefaultValue {
+ return config
+ }
+
+ hwlog.RunLog.Infof("ReInject value is '%d' in file, start saving to DP", config.ReInject)
+ // reset devFaultCache
+ hdm.updateDevFaultCache(config.Faults)
+ config.ReInject = 0
+
+ hdm.updateFaultInjectFile(config)
+ return config
+}
+
+func (hdm *HwDevManager) pollAndInjectFaultFromCm() *FaultDebugConfig {
+
+ configMap, err := hdm.manager.GetKubeClient().GetConfigMap(FaultEventCMName, FaultEventCMNameSpace)
+ if err != nil {
+ hwlog.RunLog.ErrorfWithLimit(FaultEventCMName, 2, "cannot find '%s' configmap, reason: %v", FaultEventCMName, err)
+ return nil
+ }
+
+ config, err := parseFaultDebugConfigJson(configMap)
+ if err != nil || config == nil {
+ hwlog.RunLog.Error(err)
+ return nil
+ }
+
+ if config.ReInject != ReInjectAllFaultsDefaultValue {
+ return config
+ }
+ hwlog.RunLog.Infof("ReInject value is '%d' in CM, start saving to DP", config.ReInject)
+
+ node, err := kubeclient.GetNodeNameFromEnv()
+ if err != nil || node == "" {
+ hwlog.RunLog.Errorf("cannot get node from env, reason: %v", err)
+ return config
+ }
+
+ if node != config.Node {
+ hwlog.RunLog.Infof("dont have node '%s' in configmap, target nodes: %s", node, config.Node)
+ return config
+ }
+
+ // reset devFaultCache
+ hdm.updateDevFaultCache(config.Faults)
+ config.ReInject = 0
+
+ hdm.updateConfigMap(config, configMap)
+
+ return config
+}
+
+func (hdm *HwDevManager) updateDevFaultCache(faultInfos []FaultInfo) {
+ tempDevFaultCache := make([]npuCommon.DevFaultInfo, 0)
+ now := time.Now()
+
+ // save npu device fault
+ for _, fault := range faultInfos {
+ eventId, err := convertFaultCodeHexToInt(fault.EventID)
+ if err != nil {
+ hwlog.RunLog.Errorf("get fault code fail, reason: %v", err)
+ continue
+ }
+ if len(fault.TimeOffset) == 0 {
+ fault.TimeOffset = append(fault.TimeOffset, 0)
+ }
+ for _, offset := range fault.TimeOffset {
+ rasedTime := now.Add(time.Duration(offset) * time.Second)
+
+ devFault := npuCommon.DevFaultInfo{
+ EventID: eventId,
+ LogicID: fault.LogicID,
+ Severity: fault.Severity,
+ Assertion: fault.Assertion,
+ AlarmRaisedTime: rasedTime.UnixMilli(),
+ }
+ tempDevFaultCache = append(tempDevFaultCache, devFault)
+ hwlog.RunLog.Infof("add npu fault to dp cache, devFaultInfo: %v, hex code: %v",
+ devFault, strconv.FormatInt(devFault.EventID, common.Hex))
+ }
+ }
+
+ faultCacheLock.Lock()
+ hwlog.RunLog.Infof("update cache fault data finished, pre fault cnt: %d, latest fault count: %d",
+ len(devFaultCache), len(tempDevFaultCache))
+ devFaultCache = tempDevFaultCache
+ faultCacheLock.Unlock()
+}
+
+func (hdm *HwDevManager) injectDevFaultToDp() {
+ faultCacheLock.Lock()
+ defer faultCacheLock.Unlock()
+
+ nowTime := time.Now().UnixMilli()
+ newDevFaultCache := make([]npuCommon.DevFaultInfo, 0)
+ for _, devFault := range devFaultCache {
+ if nowTime >= devFault.AlarmRaisedTime {
+ common.SaveDevFaultInfo(devFault)
+ continue
+ }
+ newDevFaultCache = append(newDevFaultCache, devFault)
+ }
+ devFaultCache = newDevFaultCache
+}
+
+func (hdm *HwDevManager) updateConfigMap(config *FaultDebugConfig, configMap *v1.ConfigMap) {
+ configBytes, err := json.Marshal(*config)
+ if err != nil {
+ hwlog.RunLog.Errorf("marshal FaultDebugConfig fail, data: %v reason: %v", config, err)
+ return
+ }
+ configMap.Data[FaultEventFileKey] = string(configBytes)
+ _, err = hdm.manager.GetKubeClient().UpdateConfigMap(configMap)
+ if err != nil {
+ hwlog.RunLog.Errorf("update '%s' configmap fail, reason: %v", FaultEventCMName, err)
+ }
+}
+
+func (hdm *HwDevManager) updateFaultInjectFile(config *FaultDebugConfig) error {
+ configBytes, err := json.Marshal(*config)
+ if err != nil {
+ hwlog.RunLog.Errorf("marshal FaultDebugConfig fail, data: %v err: %v", config, err)
+ return fmt.Errorf("marshal FaultDebugConfig fail, data: %v err: %v", config, err)
+ }
+ f, err := os.OpenFile(FaultEventFileAbsPath, os.O_WRONLY|os.O_CREATE|os.O_TRUNC, os.ModePerm)
+ if err != nil {
+ hwlog.RunLog.Errorf("open fault file failed, reason: %v", err)
+ return fmt.Errorf("open fault file failed, reason: %v", err)
+ }
+ defer f.Close()
+ if _, err = f.WriteString(string(configBytes)); err != nil {
+ hwlog.RunLog.Errorf("write fault file failed, reason: %v", err)
+ return fmt.Errorf("write fault file failed, reason: %v", err)
+ }
+ return nil
+}
+
+func parseFaultDebugConfigJson(configMap *v1.ConfigMap) (*FaultDebugConfig, error) {
+ jsonStr, ok := configMap.Data[FaultEventFileKey]
+ if !ok {
+ return nil, fmt.Errorf("cannot find data '%s' in CM'", FaultEventFileKey)
+ }
+ return convertByteToFaultDebugConfig([]byte(jsonStr))
+}
+
+func readFaultDebugFileJson() (*FaultDebugConfig, error) {
+ faultCodeBytes, err := utils.LoadFile(FaultEventFileAbsPath)
+ if err != nil {
+ return nil, fmt.Errorf("load fault event json file failed, path: %v, reason: %v", FaultEventFileAbsPath, err)
+ }
+ if faultCodeBytes == nil {
+ return nil, errors.New("the file does not exist or for other reasons, the read data is empty")
+ }
+ return convertByteToFaultDebugConfig(faultCodeBytes)
+}
+
+func convertByteToFaultDebugConfig(bytes []byte) (*FaultDebugConfig, error) {
+ configInfo := &FaultDebugConfig{
+ PollInterval: FaultEventCMPollSecInterval,
+ }
+ if err := json.Unmarshal(bytes, configInfo); err != nil {
+ return nil, fmt.Errorf("cannot unmarshal json data, data: %s, reason: %v", string(bytes), err)
+ }
+ return configInfo, nil
+}
+
+func convertFaultCodeHexToInt(hexStr string) (int64, error) {
+ hexStr = strings.TrimPrefix(hexStr, "0x")
+ codes := common.StringTool.HexStringToInt([]string{hexStr})
+ if len(codes) == 0 {
+ return -1, fmt.Errorf("convert fault code hex string '%s' to int failed", hexStr)
+ }
+ return codes[0], nil
+}
diff --git a/component/ascend-device-plugin/pkg/server/fault_writer.py b/component/ascend-device-plugin/pkg/server/fault_writer.py
new file mode 100644
index 000000000..fc5592f62
--- /dev/null
+++ b/component/ascend-device-plugin/pkg/server/fault_writer.py
@@ -0,0 +1,55 @@
+import os
+import json
+
+class FaultInfo:
+ def __init__(self, EventID=None, LogicID=None, Severity=None, Assertion=None, TimeOffset=None):
+ self.EventID = EventID
+ self.LogicID = LogicID
+ self.Severity = Severity
+ self.Assertion = Assertion
+ self.TimeOffset = TimeOffset
+ def to_dict(self):
+ return {
+ 'EventID': self.EventID,
+ 'LogicID': self.LogicID,
+ 'Severity': self.Severity,
+ 'Assertion': self.Assertion,
+ 'TimeOffset': self.TimeOffset
+ }
+
+class FaultDebugConfig:
+ def __init__(self, Node=None, PollInterval=None, ReInject=None, Faults=None):
+ self.Node = Node
+ self.PollInterval = PollInterval
+ self.ReInject = ReInject
+ self.Faults = Faults
+
+def create_and_write_json_file():
+ file_path = "/user/inject/fault/npuFaultFile.json"
+ Faults=[
+ FaultInfo(
+ EventID="0x80E21007",
+ LogicID=1,
+ Severity=0,
+ Assertion=1,
+ TimeOffset=[0, 6]
+ ),
+ FaultInfo(
+ EventID="0x80E21007",
+ LogicID=1,
+ Severity=0,
+ Assertion=0,
+ TimeOffset=[12]
+ )
+ ]
+
+ json_data = FaultDebugConfig(
+ Node="XXX",
+ PollInterval=1,
+ ReInject=1,
+ Faults=[fault.to_dict() for fault in Faults]
+ )
+ with open(file_path, 'w') as f:
+ json.dump(json_data.__dict__, f, indent=4)
+
+# create_and_write_json_file()
\ No newline at end of file
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 067bf75f2..3154f2808 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -434,6 +434,9 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
hdm.separateNPUIDFromDeviceInfoIntoCache()
go hdm.pollFaultCodeCM(ctx)
go hdm.Serve(ctx)
+
+ hdm.constructNpuFaultByCm(ctx)
+
if common.ParamOption.CheckCachedPods {
go hdm.manager.GetKubeClient().PodInformerInspector(ctx)
}
--
Gitee
From 7a98f6d89f6eefaec85bb3357b8441b41cb4870e Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Mon, 14 Apr 2025 17:01:39 +0800
Subject: [PATCH 10/14] =?UTF-8?q?=E3=80=90ascend=20device=20plugin?=
=?UTF-8?q?=E3=80=91pod=E5=88=9B=E5=BB=BA=E3=80=81=E6=9B=B4=E6=96=B0?=
=?UTF-8?q?=E3=80=81=E5=88=A0=E9=99=A4=E6=97=B6=E8=A7=A6=E5=8F=91dp?=
=?UTF-8?q?=E4=B8=BB=E6=B5=81=E7=A8=8B?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
.../ascend-device-plugin/pkg/common/common.go | 2 +
.../pkg/common/fault_code.go | 10 +--
.../pkg/kubeclient/pod_informer.go | 67 +++++++++++++++++++
3 files changed, 71 insertions(+), 8 deletions(-)
create mode 100644 component/ascend-device-plugin/pkg/kubeclient/pod_informer.go
diff --git a/component/ascend-device-plugin/pkg/common/common.go b/component/ascend-device-plugin/pkg/common/common.go
index 2af5770f5..02e02760c 100644
--- a/component/ascend-device-plugin/pkg/common/common.go
+++ b/component/ascend-device-plugin/pkg/common/common.go
@@ -52,6 +52,8 @@ var (
"ascend310": regexp.MustCompile(`^Ascend310-\d+`),
"ascend310P": regexp.MustCompile(`^Ascend310P-\d+`),
}
+ // UpdateTriggerChan is a channel to trigger device info update
+ UpdateTriggerChan = make(chan struct{}, 1)
)
// ServerInfo used for pass parameters
diff --git a/component/ascend-device-plugin/pkg/common/fault_code.go b/component/ascend-device-plugin/pkg/common/fault_code.go
index 9ae9b6316..5eb8aa585 100644
--- a/component/ascend-device-plugin/pkg/common/fault_code.go
+++ b/component/ascend-device-plugin/pkg/common/fault_code.go
@@ -126,8 +126,6 @@ var (
RestartNPU, PreSeparateNPU, SeparateNPU, SubHealthFault)
// NetworkFaultCodes is a set that contains all the network fault codes
NetworkFaultCodes = sets.NewInt64(LinkDownFaultCode)
- // faultTriggerChan is a channel to trigger device info update
- faultTriggerChan = make(chan struct{}, 1)
// lastWriteTime previous write time
lastWriteTime time.Time
)
@@ -1195,8 +1193,9 @@ func SaveDevFaultInfo(devFaultInfo common.DevFaultInfo) {
hwlog.RunLog.Debug("It has been less than one second since the last processing. Skipping processing.")
return
}
+
select {
- case faultTriggerChan <- struct{}{}:
+ case UpdateTriggerChan <- struct{}{}:
lastWriteTime = time.Now()
hwlog.RunLog.Debug("Triggered fault processing")
default:
@@ -1686,8 +1685,3 @@ func GetFrequencyFaultLevelAndCodes(mode string, logicId int32) map[int64]FaultT
}
return result
}
-
-// GetFaultTriggerChan get fault trigger chan
-func GetFaultTriggerChan() chan struct{} {
- return faultTriggerChan
-}
diff --git a/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go
new file mode 100644
index 000000000..d55edcbde
--- /dev/null
+++ b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go
@@ -0,0 +1,67 @@
+package kubeclient
+
+import (
+ "context"
+ "time"
+
+ "k8s.io/api/core/v1"
+ "k8s.io/apimachinery/pkg/fields"
+ "k8s.io/client-go/tools/cache"
+
+ "Ascend-device-plugin/pkg/common"
+ "ascend-common/common-utils/hwlog"
+)
+
+// StartPodCreationWatcher starts watching Pod creation events on this node
+func (ki *ClientK8s) StartPodCreationWatcher(nodeName string) {
+ // Create Pod ListWatch object, only watching Pods on this node
+ listWatch := cache.NewListWatchFromClient(ki.Clientset.CoreV1().RESTClient(), "pods", v1.NamespaceAll,
+ fields.OneTermEqualSelector("spec.nodeName", nodeName))
+
+ // Define event handler functions
+ _, controller := cache.NewInformer(
+ listWatch,
+ &v1.Pod{},
+ time.Minute*1,
+ cache.ResourceEventHandlerFuncs{
+ AddFunc: func(obj interface{}) {
+ pod := obj.(*v1.Pod)
+ hwlog.RunLog.Infof("New Pod created on node %s: %s", nodeName, pod.Name)
+ triggerUpdate()
+ },
+ UpdateFunc: func(oldObj, newObj interface{}) {
+ oldPod := oldObj.(*v1.Pod)
+ newPod := newObj.(*v1.Pod)
+ hwlog.RunLog.Infof("Pod updated on node %s: %s (old phase: %s, new phase: %s)",
+ nodeName, newPod.Name, oldPod.Status.Phase, newPod.Status.Phase)
+ triggerUpdate()
+ },
+ DeleteFunc: func(obj interface{}) {
+ pod := obj.(*v1.Pod)
+ hwlog.RunLog.Infof("Pod deleted from node %s: %s", nodeName, pod.Name)
+ triggerUpdate()
+ },
+ },
+ )
+
+ // Start the controller
+ stopCh := context.Background().Done()
+ go controller.Run(stopCh)
+
+ // Wait for controller to sync
+ if !cache.WaitForCacheSync(stopCh, controller.HasSynced) {
+ hwlog.RunLog.Info("Timed out waiting for caches to sync")
+ return
+ }
+
+ hwlog.RunLog.Info("Pod creation watcher started")
+}
+
+func triggerUpdate() {
+ select {
+ case common.UpdateTriggerChan <- struct{}{}:
+ hwlog.RunLog.Debug("Triggered fault processing")
+ default:
+ hwlog.RunLog.Debug("Fault processing is already in progress")
+ }
+}
--
Gitee
From 8acf7969e9d4f9a87014dab1690fd2c735b816d2 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Mon, 14 Apr 2025 17:12:16 +0800
Subject: [PATCH 11/14] fix ci
---
component/ascend-device-plugin/pkg/server/manager.go | 4 +---
1 file changed, 1 insertion(+), 3 deletions(-)
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 3154f2808..37f3214e7 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -445,8 +445,6 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
defer ticker.Stop()
- faultTrigger := common.GetFaultTriggerChan()
-
for {
select {
case _, ok := <-ctx.Done():
@@ -455,7 +453,7 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
}
hwlog.RunLog.Info("listen device stop")
return
- case <-faultTrigger:
+ case <-common.UpdateTriggerChan:
hwlog.RunLog.Info("Received fault trigger, processing device info update")
hdm.handleDeviceInfoUpdate(&initTime)
case <-ticker.C:
--
Gitee
From 8ea54dfa317a3fa1af8159929e87b91d14790bfc Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Mon, 14 Apr 2025 17:13:03 +0800
Subject: [PATCH 12/14] fix ci
---
component/ascend-device-plugin/pkg/server/manager.go | 4 +---
1 file changed, 1 insertion(+), 3 deletions(-)
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 067bf75f2..2556e72c3 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -442,8 +442,6 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
defer ticker.Stop()
- faultTrigger := common.GetFaultTriggerChan()
-
for {
select {
case _, ok := <-ctx.Done():
@@ -452,7 +450,7 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
}
hwlog.RunLog.Info("listen device stop")
return
- case <-faultTrigger:
+ case <-common.UpdateTriggerChan:
hwlog.RunLog.Info("Received fault trigger, processing device info update")
hdm.handleDeviceInfoUpdate(&initTime)
case <-ticker.C:
--
Gitee
From 5b7345c790a45ce31a86d4a1382cffb6c7574cf2 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Tue, 15 Apr 2025 09:43:13 +0800
Subject: [PATCH 13/14] =?UTF-8?q?=E5=A2=9E=E5=8A=A0pod=E4=BA=8B=E4=BB=B6?=
=?UTF-8?q?=E7=9B=91=E5=90=AC?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
.../pkg/kubeclient/pod_informer.go | 10 +++++-----
component/ascend-device-plugin/pkg/server/manager.go | 6 ++++++
2 files changed, 11 insertions(+), 5 deletions(-)
diff --git a/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go
index d55edcbde..049be2802 100644
--- a/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go
+++ b/component/ascend-device-plugin/pkg/kubeclient/pod_informer.go
@@ -13,10 +13,10 @@ import (
)
// StartPodCreationWatcher starts watching Pod creation events on this node
-func (ki *ClientK8s) StartPodCreationWatcher(nodeName string) {
+func (ki *ClientK8s) StartPodCreationWatcher() {
// Create Pod ListWatch object, only watching Pods on this node
listWatch := cache.NewListWatchFromClient(ki.Clientset.CoreV1().RESTClient(), "pods", v1.NamespaceAll,
- fields.OneTermEqualSelector("spec.nodeName", nodeName))
+ fields.OneTermEqualSelector("spec.nodeName", ki.NodeName))
// Define event handler functions
_, controller := cache.NewInformer(
@@ -26,19 +26,19 @@ func (ki *ClientK8s) StartPodCreationWatcher(nodeName string) {
cache.ResourceEventHandlerFuncs{
AddFunc: func(obj interface{}) {
pod := obj.(*v1.Pod)
- hwlog.RunLog.Infof("New Pod created on node %s: %s", nodeName, pod.Name)
+ hwlog.RunLog.Infof("New Pod created on node %s: %s", ki.NodeName, pod.Name)
triggerUpdate()
},
UpdateFunc: func(oldObj, newObj interface{}) {
oldPod := oldObj.(*v1.Pod)
newPod := newObj.(*v1.Pod)
hwlog.RunLog.Infof("Pod updated on node %s: %s (old phase: %s, new phase: %s)",
- nodeName, newPod.Name, oldPod.Status.Phase, newPod.Status.Phase)
+ ki.NodeName, newPod.Name, oldPod.Status.Phase, newPod.Status.Phase)
triggerUpdate()
},
DeleteFunc: func(obj interface{}) {
pod := obj.(*v1.Pod)
- hwlog.RunLog.Infof("Pod deleted from node %s: %s", nodeName, pod.Name)
+ hwlog.RunLog.Infof("Pod deleted from node %s: %s", ki.NodeName, pod.Name)
triggerUpdate()
},
},
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 2556e72c3..5ccfe0eb8 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -438,6 +438,12 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
go hdm.manager.GetKubeClient().PodInformerInspector(ctx)
}
+ if client := hdm.manager.GetKubeClient(); client != nil {
+ client.StartPodCreationWatcher()
+ } else {
+ hwlog.RunLog.Errorf("kube client is nil")
+ }
+
initTime := time.Now()
ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
defer ticker.Stop()
--
Gitee
From adaf90de1fff30b23b9c416d14c995c2d4a43886 Mon Sep 17 00:00:00 2001
From: Yanng Lei <2776206243@qq.com>
Date: Tue, 15 Apr 2025 10:41:01 +0800
Subject: [PATCH 14/14] =?UTF-8?q?=E3=80=90ascend=20device=20plugin?=
=?UTF-8?q?=E3=80=91=E4=B8=80=E7=A7=92=E6=B6=88=E8=B4=B9=E4=B8=80=E6=AC=A1?=
=?UTF-8?q?=E4=BF=A1=E5=8F=B7?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
component/ascend-device-plugin/main.go | 4 ++--
.../pkg/server/manager.go | 19 +++++++++++++++----
2 files changed, 17 insertions(+), 6 deletions(-)
diff --git a/component/ascend-device-plugin/main.go b/component/ascend-device-plugin/main.go
index 84daea3f4..1f190ada5 100644
--- a/component/ascend-device-plugin/main.go
+++ b/component/ascend-device-plugin/main.go
@@ -33,7 +33,7 @@ const (
defaultLogPath = "/var/log/mindx-dl/devicePlugin/devicePlugin.log"
// defaultListWatchPeriod is the default listening device state's period
- defaultListWatchPeriod = 5
+ defaultListWatchPeriod = 60
// maxListWatchPeriod is the max listening device state's period
maxListWatchPeriod = 60
@@ -59,7 +59,7 @@ var (
edgeLogFile = flag.String("edgeLogFile", "/var/alog/AtlasEdge_log/devicePlugin.log",
"Log file path in edge scene")
listWatchPeriod = flag.Int("listWatchPeriod", defaultListWatchPeriod,
- "Listen and watch device state's period, unit second, range [3, 60]")
+ "Listen and watch device state's period, unit second, range [3, 1800]")
autoStowing = flag.Bool("autoStowing", true, "Whether to automatically stow the fixed device")
logLevel = flag.Int("logLevel", 0,
"Log level, -1-debug, 0-info, 1-warning, 2-error, 3-critical(default 0)")
diff --git a/component/ascend-device-plugin/pkg/server/manager.go b/component/ascend-device-plugin/pkg/server/manager.go
index 5ccfe0eb8..232f01966 100644
--- a/component/ascend-device-plugin/pkg/server/manager.go
+++ b/component/ascend-device-plugin/pkg/server/manager.go
@@ -28,7 +28,7 @@ import (
"github.com/containerd/containerd"
"github.com/fsnotify/fsnotify"
- "k8s.io/api/core/v1"
+ v1 "k8s.io/api/core/v1"
"k8s.io/apimachinery/pkg/util/wait"
"k8s.io/kubelet/pkg/apis/deviceplugin/v1beta1"
@@ -447,6 +447,8 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
initTime := time.Now()
ticker := time.NewTicker(time.Duration(common.ParamOption.ListAndWatchPeriod) * time.Second)
defer ticker.Stop()
+ triggerTicker := time.NewTicker(time.Second)
+ defer triggerTicker.Stop()
for {
select {
@@ -456,9 +458,8 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
}
hwlog.RunLog.Info("listen device stop")
return
- case <-common.UpdateTriggerChan:
- hwlog.RunLog.Info("Received fault trigger, processing device info update")
- hdm.handleDeviceInfoUpdate(&initTime)
+ case <-triggerTicker.C: // 每秒触发一次
+ hdm.parseTriggers(initTime)
case <-ticker.C:
hwlog.RunLog.Debug("Periodic device info update")
hdm.handleDeviceInfoUpdate(&initTime)
@@ -466,6 +467,16 @@ func (hdm *HwDevManager) ListenDevice(ctx context.Context) {
}
}
+func (hdm *HwDevManager) parseTriggers(initTime time.Time) {
+ select {
+ case <-common.UpdateTriggerChan:
+ hwlog.RunLog.Info("Received fault trigger, processing device info update")
+ hdm.handleDeviceInfoUpdate(&initTime)
+ default:
+ hwlog.RunLog.Debug("No fault trigger, skipping device info update")
+ }
+}
+
func deepCopyGroupDevice(groupDevice map[string][]*common.NpuDevice) map[string][]*common.NpuDevice {
newGroupDevice := make(map[string][]*common.NpuDevice, len(groupDevice))
for deviceType, npuDevices := range groupDevice {
--
Gitee