From 6f96c83d20f07466565e6493afd13db1dcf046da Mon Sep 17 00:00:00 2001 From: wangjun Date: Fri, 25 Apr 2025 15:31:45 +0800 Subject: [PATCH 1/2] =?UTF-8?q?=E3=80=90=E4=BF=AE=E6=94=B9=E8=AF=B4?= =?UTF-8?q?=E6=98=8E=E3=80=91README=E6=89=AB=E6=8F=8F=E9=97=AE=E9=A2=98?= =?UTF-8?q?=E4=BF=AE=E6=94=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 4 ++-- component/ascend-device-plugin/README.md | 2 +- component/ascend-for-volcano/README.md | 6 +++--- component/npu-exporter/README.md | 3 ++- 4 files changed, 8 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index 7f7a55c39..5cc7c2c5b 100644 --- a/README.md +++ b/README.md @@ -17,7 +17,7 @@ # 介绍 - MindCluster(AI集群系统软件)是支持NPU(昇腾AI处理器)训练和推理硬件的深度学习组件,使能构建集群全流程运行,提供NPU集群作业调度、运维监控、故障恢复等功能。深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量,快速使能合作伙伴基于MindCluster开发深度学习平台。 + MindCluster(AI集群系统软件)是支持NPU(昇腾AI处理器)训练和推理硬件的深度学习组件,使能构建集群全流程运行,提供NPU集群作业调度、运维监测、故障恢复等功能。深度学习平台开发厂商可以减少底层资源调度相关软件开发工作量,快速使能合作伙伴基于MindCluster开发深度学习平台。 # 支持的产品形态 @@ -26,7 +26,7 @@ - Atlas A2 训练系列产品 - Atlas A3 训练系列产品 - 推理服务器(插Atlas 300I 推理卡) - - Atlas 推理系列产品(Ascend 310P AI处理器) + - Atlas 推理系列产品 - Atlas 800I A2 推理服务器 # 编译 diff --git a/component/ascend-device-plugin/README.md b/component/ascend-device-plugin/README.md index 372b13dc9..159ffee7a 100644 --- a/component/ascend-device-plugin/README.md +++ b/component/ascend-device-plugin/README.md @@ -7,7 +7,7 @@ - Atlas A2 训练系列产品 - Atlas A3 训练系列产品 - 推理服务器(插Atlas 300I 推理卡) - - Atlas 推理系列产品(Ascend 310P AI处理器) + - Atlas 推理系列产品 - Atlas 800I A2 推理服务器 diff --git a/component/ascend-for-volcano/README.md b/component/ascend-for-volcano/README.md index 6facdd46f..47b449653 100644 --- a/component/ascend-for-volcano/README.md +++ b/component/ascend-for-volcano/README.md @@ -269,17 +269,17 @@ │ │ ├── ascend310 # 310推理芯片代码目录 │ │ │ ├── card310x4 │ │ │ └── chip310x4 -│ │ ├── ascend310p # 推理芯片动态算力切分代码目录 +│ │ ├── ascend310p # 推理芯片动态虚拟化代码目录 │ │ │ ├── card310px2 # 300i duo卡 卡模式调度策略代码目录 │ │ │ ├── chip310px2 # 300i duo卡 芯片模式调度策略代码目录 -│ │ │ └── vnpu # 推理芯片动态算力切分代码目录 +│ │ │ └── vnpu # 推理芯片动态虚拟化代码目录 │ │ ├── ascend910 │ │ │ ├── ascend910a3 # A3硬件亲和性调度代码目录 │ │ │ │ ├── module910a3x16 # 800T A3硬件亲和性调度代码目录 │ │ │ │ ├── superpod # A3 超节点亲和性调度代码目录 │ │ │ ├── ascend910b # A2硬件亲和性调度代码目录 │ │ │ │ ├── module910bx16 # 200T box A2硬件亲和性调度策略代码目录 -│ │ │ │ └── vnpu # A2动态算力切分调度策略代码目录 +│ │ │ │ └── vnpu # A2动态虚拟化调度策略代码目录 │ │ │ └── asend910old # A1硬件亲和性调度策略代码目录 │ │ │ └── module910x8 │ │ ├── base # 基础调度策略代码目录 diff --git a/component/npu-exporter/README.md b/component/npu-exporter/README.md index b8004062d..b16e0c7ce 100644 --- a/component/npu-exporter/README.md +++ b/component/npu-exporter/README.md @@ -3,12 +3,13 @@ # 组件介绍 -Prometheus(普罗米修斯)是一个开源的系统监控和警报工具包,Exporter就是专门为Prometheus提供数据源的组件。由于Prometheus社区的活跃和大量的使用,已经有很多厂商或者服务提供了Exporter,如Prometheus官方的Node Exporter,MySQL官方出的MySQL Server Exporter和NVIDA的NVIDIA GPU Exporter。这些Exporter负责将特定监控对象的指标,转成Prometheus能够识别的数据格式,供Prometheus集成。NPU-Expoter是华为自研的专门收集华为NPU各种监控信息和指标,并封装成Prometheus专用数据格式的一个服务组件。 +Prometheus(普罗米修斯)是一个开源的系统监测和警报工具包,Exporter就是专门为Prometheus提供数据源的组件。由于Prometheus社区的活跃和大量的使用,已经有很多厂商或者服务提供了Exporter,如Prometheus官方的Node Exporter,MySQL官方出的MySQL Server Exporter和NVIDA的NVIDIA GPU Exporter。这些Exporter负责将特定监测对象的指标,转成Prometheus能够识别的数据格式,供Prometheus集成。NPU-Expoter是华为自研的专门收集华为NPU各种监测信息和指标,并封装成Prometheus专用数据格式的一个服务组件。 # 编译NPU-Exporter 1. 通过git拉取源码,获得npu-exporter。 +2. 示例:Npu-Exporter源码放在/home/mind-cluster/component/npu-exporter目录下 -- Gitee From c7737f730a2edf380d36d859b59184cd80c5c734 Mon Sep 17 00:00:00 2001 From: wangjun Date: Tue, 29 Apr 2025 14:32:33 +0800 Subject: [PATCH 2/2] =?UTF-8?q?=E3=80=90=E4=BF=AE=E6=94=B9=E8=AF=B4?= =?UTF-8?q?=E6=98=8E=E3=80=91README=E6=89=AB=E6=8F=8F=E9=97=AE=E9=A2=98?= =?UTF-8?q?=E4=BF=AE=E6=94=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- component/npu-exporter/README.md | 1 - 1 file changed, 1 deletion(-) diff --git a/component/npu-exporter/README.md b/component/npu-exporter/README.md index b16e0c7ce..726acee15 100644 --- a/component/npu-exporter/README.md +++ b/component/npu-exporter/README.md @@ -9,7 +9,6 @@ Prometheus(普罗米修斯)是一个开源的系统监测和警报工具包 # 编译NPU-Exporter 1. 通过git拉取源码,获得npu-exporter。 -2. 示例:Npu-Exporter源码放在/home/mind-cluster/component/npu-exporter目录下 -- Gitee