From 0dd90976bfabc2e2561fc366bfe042706a052c06 Mon Sep 17 00:00:00 2001
From: lidonglei3 <lidonglei3@huawei.com>
Date: Mon, 4 Mar 2024 19:10:23 +0800
Subject: [PATCH 1/6] =?UTF-8?q?[profiler\cluster=5Fanalyse]=E9=9B=86?=
 =?UTF-8?q?=E7=BE=A4=E5=88=86=E6=9E=90=E5=B7=A5=E5=85=B7=E6=94=AF=E6=8C=81?=
 =?UTF-8?q?db=E6=96=87=E4=BB=B6=E8=A7=A3=E6=9E=90?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 profiler/cluster_analyse/README.md | 27 +++++++++++++++++++++++----
 1 file changed, 23 insertions(+), 4 deletions(-)

diff --git a/profiler/cluster_analyse/README.md b/profiler/cluster_analyse/README.md
index 7cdb2d2c1..2833d293e 100644
--- a/profiler/cluster_analyse/README.md
+++ b/profiler/cluster_analyse/README.md
@@ -21,6 +21,12 @@ experimental_config = torch_npu.profiler._ExperimentalConfig(
 - ./ASCEND_PROFILER_OUTPUT/communication.json,
 - ./ASCEND_PROFILER_OUTPUT/communication_matrix.json
 
+或者具备：
+
+- ascend_pytorch.db
+
+以上csv、json文件与db文件只能存在一类，否则集群分析工具解析异常。
+
 确认这几个文件生成后，继续下面的集群分析。
 
 ## 数据汇聚与集群解析
@@ -37,11 +43,11 @@ python3 cluster_analysis.py -d {cluster profiling data path} -m {mode}
 | --collection_path或-d  | 性能数据汇集目录，运行分析脚本之后会在该目录下自动创建cluster_analysis_output文件夹，保存分析数据。 | 是 |
 | --mode或-m | 数据解析模式。取值为：communication_matrix（解析通信矩阵数据）、communication_time（解析通信耗时数据）、all（同时解析通信矩阵和通信耗时数据），默认值为all。 | 否 |
 
-## 交付件
+### 交付件
 
 集群分析工具的交付件通过Ascend Insight工具展示，详见《MindStudio 可视化调优工具指南（Ascend Insight）》。
 
-### cluster_step_trace_time.csv
+#### cluster_step_trace_time.csv
 
 数据解析模式为communication_matrix、communication_time或all时均生成。
 
@@ -79,7 +85,7 @@ K列：Communication（Not Overlapped and Exclude Receive）指剔除recieve算
 
 以上时间理论上都应该处于持平状态，即最大值小于最小值5%，否则就可能出现慢卡。
 
-### cluster_communication_matrix.json
+#### cluster_communication_matrix.json
 
 数据解析模式为communication_matrix或all时生成。
 
@@ -99,8 +105,21 @@ K列：Communication（Not Overlapped and Exclude Receive）指剔除recieve算
 - “HCCS”或“PCIE”是节点内片间拷贝，速度在18GB左右或以上比较正常。
 - “RDMA”是节点间拷贝，910A速度在12GB左右或以上。
 
-### cluster_communication.json
+#### cluster_communication.json
 
 数据解析模式为communication_time或all时生成。
 
 主要为通信耗时数据。
+
+#### cluster_analysis.db
+
+解析ascend_pytorch.db生成的交付件，当前解析通信类数据，主要包含下面数据：
+
+- ClusterCommAnalyzerTime：集群通信时间信息。
+- ClusterCommAnalyzerBandwidth：集群通信带宽信息。
+- ClusterCommAnalyzerMatrix：集群通信矩阵数据。
+- CommunicationGroup：通信组信息。
+- ClusterStepTraceTime：集群迭代轨迹数据。
+
+
+
-- 
Gitee


From 98e6560a9086f52349115313a5d710654df38b8f Mon Sep 17 00:00:00 2001
From: user_10012209 <734267852@qq.com>
Date: Tue, 5 Mar 2024 16:14:15 +0800
Subject: [PATCH 2/6] =?UTF-8?q?[filer\compare=5Ftools]=E6=80=A7=E8=83=BD?=
 =?UTF-8?q?=E6=AF=94=E5=AF=B9=E5=B7=A5=E5=85=B7=E6=AF=94=E5=AF=B9=E7=BB=93?=
 =?UTF-8?q?=E6=9E=9C=E8=A1=A5=E5=85=85=E5=90=8C=E6=AD=A5=E6=97=B6=E9=97=B4?=
 =?UTF-8?q?=E5=AD=97=E6=AE=B5?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 profiler/compare_tools/README.md | 26 +++++++++++++-------------
 1 file changed, 13 insertions(+), 13 deletions(-)

diff --git a/profiler/compare_tools/README.md b/profiler/compare_tools/README.md
index 17d26d07e..3793679b3 100644
--- a/profiler/compare_tools/README.md
+++ b/profiler/compare_tools/README.md
@@ -131,19 +131,19 @@ python performance_compare.py [基准性能数据文件] [比对性能数据文
 
 总体性能比对结果以打屏的形式呈现。
 
-| 字段                            | 说明                                                         |
-| ------------------------------- | ------------------------------------------------------------ |
-| Cube Time(Num)                  | Cube算子总耗时，Num表示计算的次数。                          |
-| Vector Time(Num)                | Vector算子总耗时，Num表示计算的次数。                        |
-| Other Time                      | AI CPU、DSA等其他非cube vector算子耗时。                     |
-| Flash Attention Time(Forward)   | Flash Attention算子前向耗时。                                |
-| Flash Attention Time(Backward)  | Flash Attention算子反向耗时。                                |
-| Computing Time                  | 计算流耗时，计算流所有event耗时总和。如果有多条并发计算，计算流耗时对重叠部分只会计算一次。 |
-| Mem Usage                       | 内存使用。gpu上的内存使用可以使用nvidia-smi查看，npu上的内存使用可以使用npu-smi查看，Profiling信息采集时打开profile_memory=True开关，mem usage显示的是memory_record里面的最大resevered值，一般来说是进程级内存。 |
-| Uncovered Communication Time    | 通信未掩盖耗时。                                             |
-| SDMA Time(Num)                  | 拷贝类任务耗时，Num表示计算的次数。                          |
-| Free Time                       | 调度耗时 = E2E耗时 - 算子耗时 - 通信不可掩盖耗时。Free的定义为Device侧既不在通信又不在计算的时间，因此包含拷贝时间（SDMA Time）。 |
-| E2E Time(Not minimal profiling) | E2E总耗时，计算流端到端耗时。当存在Not minimal profiling时，表示该时间存在性能膨胀，会影响通信和调度耗时。 |
+| 字段                                    | 说明                                                         |
+| --------------------------------------- | ------------------------------------------------------------ |
+| Cube Time(Num)                          | Cube算子总耗时，Num表示计算的次数。                          |
+| Vector Time(Num)                        | Vector算子总耗时，Num表示计算的次数。                        |
+| Other Time                              | AI CPU、DSA等其他非cube vector算子耗时。                     |
+| Flash Attention Time(Forward)           | Flash Attention算子前向耗时。                                |
+| Flash Attention Time(Backward)          | Flash Attention算子反向耗时。                                |
+| Computing Time                          | 计算流耗时，计算流所有event耗时总和。如果有多条并发计算，计算流耗时对重叠部分只会计算一次。 |
+| Mem Usage                               | 内存使用。gpu上的内存使用可以使用nvidia-smi查看，npu上的内存使用可以使用npu-smi查看，Profiling信息采集时打开profile_memory=True开关，mem usage显示的是memory_record里面的最大resevered值，一般来说是进程级内存。 |
+| Uncovered Communication Time(Wait Time) | 通信未掩盖耗时，包含Wait Time为同步时间。                    |
+| SDMA Time(Num)                          | 拷贝类任务耗时，Num表示计算的次数。                          |
+| Free Time                               | 调度耗时 = E2E耗时 - 算子耗时 - 通信不可掩盖耗时。Free的定义为Device侧既不在通信又不在计算的时间，因此包含拷贝时间（SDMA Time）。 |
+| E2E Time(Not minimal profiling)         | E2E总耗时，计算流端到端耗时。当存在Not minimal profiling时，表示该时间存在性能膨胀，会影响通信和调度耗时。 |
 
 可以采取最简性能数据采集的方式来减少E2E耗时的性能膨胀，示例代码如下：
 
-- 
Gitee


From 86f13983b26fa860a2907bb5102d96040e7cc4b9 Mon Sep 17 00:00:00 2001
From: caishangqiu <caishangqiu@huawei.com>
Date: Thu, 7 Mar 2024 14:46:31 +0800
Subject: [PATCH 3/6] =?UTF-8?q?[att=5Fprofiler]=E6=80=A7=E8=83=BD=E6=AF=94?=
 =?UTF-8?q?=E5=AF=B9=E5=B7=A5=E5=85=B7=E6=94=AF=E6=8C=81nn.module=E7=BA=A7?=
 =?UTF-8?q?=E5=88=AB=E7=9A=84=E6=AF=94=E5=AF=B9?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 profiler/cluster_analyse/README.md |  4 ++--
 profiler/compare_tools/README.md   | 35 ++++++++++++++++++++----------
 2 files changed, 26 insertions(+), 13 deletions(-)

diff --git a/profiler/cluster_analyse/README.md b/profiler/cluster_analyse/README.md
index 2833d293e..f7646f67c 100644
--- a/profiler/cluster_analyse/README.md
+++ b/profiler/cluster_analyse/README.md
@@ -23,7 +23,7 @@ experimental_config = torch_npu.profiler._ExperimentalConfig(
 
 或者具备：
 
-- ascend_pytorch.db
+- analysis.db
 
 以上csv、json文件与db文件只能存在一类，否则集群分析工具解析异常。
 
@@ -113,7 +113,7 @@ K列：Communication（Not Overlapped and Exclude Receive）指剔除recieve算
 
 #### cluster_analysis.db
 
-解析ascend_pytorch.db生成的交付件，当前解析通信类数据，主要包含下面数据：
+解析analysis.db生成的交付件，当前解析通信类数据，主要包含下面数据：
 
 - ClusterCommAnalyzerTime：集群通信时间信息。
 - ClusterCommAnalyzerBandwidth：集群通信带宽信息。
diff --git a/profiler/compare_tools/README.md b/profiler/compare_tools/README.md
index 3793679b3..b36ac5809 100644
--- a/profiler/compare_tools/README.md
+++ b/profiler/compare_tools/README.md
@@ -162,17 +162,34 @@ activities配置仅采集NPU数据，不配置experimental_config参数以及其
 
 ### 算子性能
 
-算子性能比对结果在performance_comparison_result_*.xlsl中OperatorCompare和OperatorCompare（TOP）的sheet页呈现。
+算子性能比对结果在performance_comparison_result_*.xlsl中OperatorCompare和OperatorCompareStatistic的sheet页呈现。
 
 - OperatorCompare(TOP)：算子为粒度的统计呈现，按照算子在device上的总耗时与基准算子的差距值（Diff Duration(ms)列）进行逆序。
 - OperatorCompare：算子比对的明细展示，可以查看每一个算子对应的kernel详情。
 - Diff Ratio：比较算子在device上执行总耗时 / 基准算子在device上执行总耗时，红色代表劣化。
+- Device Duration(us)：该算子下发到device上执行的所有kernel耗时的总和。
 
-#### Device Duration(us)
+### nn.Module性能
 
-```
-该算子下发到device上执行的所有kernel耗时的总和
-```
+nn.Module是所有神经网络模块的基类，使用PyTorch构建神经网络需要继承nn.Module类来实现，性能比对工具支持nn.Module模块级的比对，帮助优化模型结构。
+
+当用户采集时开启with_stack开关，会上报python function事件，当比对的双方数据都存在python function的事件时，可进行模块级别的比对。
+
+nn.Module性能比对结果在performance_comparison_result_*.xlsl中ModuleCompareStatistic的sheet页呈现。
+
+- Module Class：Module名，如nn.Module: Linear。
+- Module Level：Module的层级。
+- Module Name：Module唯一标识名，如/ DynamicNet_0/ Linear_0。
+- Operator Name：框架侧算子名，如aten::add。字段为[ TOTAL ]代表该module的总体情况。
+- Kernel Detail：算子详细信息。
+- Device Self Time(ms)：该模块调用的算子（排除子模块）在device侧执行的总耗时，单位ms。
+- Number：该Module或算子被调用的次数。
+- Device Total Time(ms)：该模块调用的算子（包含子模块）在device侧执行的总耗时，单位ms。
+- Device Total Time Diff：GPU与NPU的Device Total Time(ms)差值。
+- Device Self Time Diff：GPU与NPU的Device Self Time(ms)差值。
+- Self Time Ratio：GPU与NPU的Device Self Time(ms)比值。
+- Base Call Stack：基准文件模块的调用栈。
+- Comparison Call Stack：比较文件模块的调用栈。
 
 ### 通信性能
 
@@ -184,7 +201,7 @@ activities配置仅采集NPU数据，不配置experimental_config参数以及其
 
 ### 算子内存
 
-算子内存比对结果在performance_comparison_result_*.xlsl中MemoryCompare和MemoryCompare（TOP）的sheet页呈现。
+算子内存比对结果在performance_comparison_result_*.xlsl中MemoryCompare和MemoryCompareStatistic的sheet页呈现。
 
 - MemoryCompare(TOP)：算子为粒度的统计呈现，按照算子占用的总内存与基准算子的差距值(Diff Memory(MB))进行逆序。
 
@@ -192,8 +209,4 @@ activities配置仅采集NPU数据，不配置experimental_config参数以及其
 
 - Diff Ratio: 比较算子占用的总内存 / 基准算子占用的总内存，红色代表劣化。
 
-#### Size(KB)
-
-```
-该算子占用的device内存大小，单位KB
-```
\ No newline at end of file
+- Size(KB)：该算子占用的device内存大小，单位KB。
-- 
Gitee


From acfba6dffdf5c0d57f7ad1335dc921ca90fbc2b0 Mon Sep 17 00:00:00 2001
From: user_10012209 <734267852@qq.com>
Date: Thu, 7 Mar 2024 19:47:56 +0800
Subject: [PATCH 4/6] [att_profiler]

---
 profiler/compare_tools/README.md | 29 ++++++++++++++++++++---------
 1 file changed, 20 insertions(+), 9 deletions(-)

diff --git a/profiler/compare_tools/README.md b/profiler/compare_tools/README.md
index b36ac5809..80b793015 100644
--- a/profiler/compare_tools/README.md
+++ b/profiler/compare_tools/README.md
@@ -97,7 +97,7 @@ python performance_compare.py [基准性能数据文件] [比对性能数据文
 - 比对性能数据文件（必选）：可以指定以“ascend_pt”结尾的目录、ASCEND_PROFILER_OUTPUT目录或trace_view.json文件，指定trace_view.json无法显示算子的内存占用。
 - --output_path（可选）：性能比对结果存放的路径，默认保存在当前目录。
 
-工具将总体性能拆解为训练耗时和内存占用，其中训练耗时可拆分为算子、通信、调度三个维度，以打屏的形式输出总体指标，帮助用户定界劣化的方向。与此同时，工具还会生成performance_comparison_result_*.xlsl，展示每个算子在执行耗时、通信耗时、内存占用的优劣，可通过DIFF列大于0筛选出劣化算子。详细介绍请参见“**比对结果说明**”。
+工具将总体性能拆解为训练耗时和内存占用，其中训练耗时可拆分为算子（包括算子和nn.Module）、通信、调度三个维度，以打屏的形式输出总体指标，帮助用户定界劣化的方向。与此同时，工具还会生成performance_comparison_result_*.xlsl，展示每个算子在执行耗时、通信耗时、内存占用的优劣，可通过DIFF列大于0筛选出劣化算子。详细介绍请参见“**比对结果说明**”。
 
 #### 通用参数说明
 
@@ -120,10 +120,10 @@ python performance_compare.py [基准性能数据文件] [比对性能数据文
 
 | 参数名            | 说明                                                         | 是否必选 |
 | ----------------- | ------------------------------------------------------------ | -------- |
-| --gpu_flow_cat    | 配置GPU trace中cpu侧算子与device kernel的连线标识，当GPU的kernel均为空时设置。根据timeline的json文件在chrome://tracing上的Flow events的选项配置。使用示例：--gpu_flow_cat=async_gpu | 否       |
+| --gpu_flow_cat    | 配置GPU trace中CPU侧算子与device kernel的连线标识，当GPU的Device Duration(us)均为0时设置。使用chrome://tracing打开GPU的json，右上角Flow events找到连线标识，将标识配置进该参数。使用示例：--gpu_flow_cat=async_gpu | 否       |
 | --use_input_shape | 开启算子精准匹配，默认关闭。使用示例：--use_input_shape      | 否       |
-| --max_kernel_num  | 设置CPU侧算子下发的最大kernel数量，当超过设定值时工具会自动往下找子算子，直至满足条件，默认仅比对最上层算子。使用示例：--max_kernel_num=10 | 否       |
-| --op_name_map     | 设置GPU与NPU等价的算子名称的映射关系，以字典形式存入。使用示例：--op_name_map='{"Optimizer.step#SGD.step":"Optimizer.step#NpuFusedSGD.step"}' | 否       |
+| --max_kernel_num  | 设置CPU侧算子下发的最大kernel数量，当超过设定值时工具会自动往下找子算子，直至满足条件。默认仅比对最上层算子，粒度较粗；若想要更细粒度的算子比对，可设置该参数，参数值不得小于4，参数值设置越小，比对粒度越细。使用示例：--max_kernel_num=10 | 否       |
+| --op_name_map     | 设置GPU与NPU等价的算子名称的映射关系，以字典形式存入。使用示例：--op_name_map={'Optimizer.step#SGD.step':'Optimizer.step#NpuFusedSGD.step'} | 否       |
 
 ## 比对结果说明
 
@@ -139,11 +139,12 @@ python performance_compare.py [基准性能数据文件] [比对性能数据文
 | Flash Attention Time(Forward)           | Flash Attention算子前向耗时。                                |
 | Flash Attention Time(Backward)          | Flash Attention算子反向耗时。                                |
 | Computing Time                          | 计算流耗时，计算流所有event耗时总和。如果有多条并发计算，计算流耗时对重叠部分只会计算一次。 |
-| Mem Usage                               | 内存使用。gpu上的内存使用可以使用nvidia-smi查看，npu上的内存使用可以使用npu-smi查看，Profiling信息采集时打开profile_memory=True开关，mem usage显示的是memory_record里面的最大resevered值，一般来说是进程级内存。 |
+| Mem Usage                               | 内存使用。GPU上的内存使用可以使用nvidia-smi查看，NPU上的内存使用可以使用npu-smi查看，Profiling信息采集时打开profile_memory=True开关，mem usage显示的是memory_record里面的最大resevered值，一般来说是进程级内存。 |
 | Uncovered Communication Time(Wait Time) | 通信未掩盖耗时，包含Wait Time为同步时间。                    |
 | SDMA Time(Num)                          | 拷贝类任务耗时，Num表示计算的次数。                          |
 | Free Time                               | 调度耗时 = E2E耗时 - 算子耗时 - 通信不可掩盖耗时。Free的定义为Device侧既不在通信又不在计算的时间，因此包含拷贝时间（SDMA Time）。 |
 | E2E Time(Not minimal profiling)         | E2E总耗时，计算流端到端耗时。当存在Not minimal profiling时，表示该时间存在性能膨胀，会影响通信和调度耗时。 |
+| Other Time                              | AI CPU、DSA、TensorMove等其他算子耗时。                      |
 
 可以采取最简性能数据采集的方式来减少E2E耗时的性能膨胀，示例代码如下：
 
@@ -160,15 +161,22 @@ with torch_npu.profiler.profile(
 
 activities配置仅采集NPU数据，不配置experimental_config参数以及其他可选开关。
 
+- 当Computing Time耗时增大，分析**算子性能**。
+- 当Uncovered Communication Time耗时增大，分析**通信性能**，若通信性能分析没有劣化的通信算子，代表通信与计算的并行度较差，继续进行NPU的集群性能分析。
+- 当Mem Usage增大，分析**算子内存**，若没有明显占用较大的算子，则代表算子内存申请量没有差异，问题在于内存的释放（持有时间过久），可以使用tensorboard或ascend insight继续进行NPU内存的分析。
+
 ### 算子性能
 
 算子性能比对结果在performance_comparison_result_*.xlsl中OperatorCompare和OperatorCompareStatistic的sheet页呈现。
 
-- OperatorCompare(TOP)：算子为粒度的统计呈现，按照算子在device上的总耗时与基准算子的差距值（Diff Duration(ms)列）进行逆序。
+- OperatorCompareStatistic：算子为粒度的统计呈现，按照算子在device上的总耗时与基准算子的差距值（Diff Duration(ms)列）进行逆序。
 - OperatorCompare：算子比对的明细展示，可以查看每一个算子对应的kernel详情。
 - Diff Ratio：比较算子在device上执行总耗时 / 基准算子在device上执行总耗时，红色代表劣化。
 - Device Duration(us)：该算子下发到device上执行的所有kernel耗时的总和。
 
+步骤1：查看OperatorCompareStatistic页，找出耗时差距TOP的算子。
+步骤2：查看OperatorCompare页，搜索耗时差距TOP的算子，查看具体执行的kernel耗时，寻找可优化点。
+
 ### nn.Module性能
 
 nn.Module是所有神经网络模块的基类，使用PyTorch构建神经网络需要继承nn.Module类来实现，性能比对工具支持nn.Module模块级的比对，帮助优化模型结构。
@@ -187,7 +195,7 @@ nn.Module性能比对结果在performance_comparison_result_*.xlsl中ModuleCompa
 - Device Total Time(ms)：该模块调用的算子（包含子模块）在device侧执行的总耗时，单位ms。
 - Device Total Time Diff：GPU与NPU的Device Total Time(ms)差值。
 - Device Self Time Diff：GPU与NPU的Device Self Time(ms)差值。
-- Self Time Ratio：GPU与NPU的Device Self Time(ms)比值。
+- Total Time Ratio：GPU与NPU的Device Total Time(ms)比值。
 - Base Call Stack：基准文件模块的调用栈。
 - Comparison Call Stack：比较文件模块的调用栈。
 
@@ -195,7 +203,7 @@ nn.Module性能比对结果在performance_comparison_result_*.xlsl中ModuleCompa
 
 通信性能比对结果在performance_comparison_result_*.xlsl中CommunicationCompare的sheet页呈现。
 
-- 淡蓝色背景的记录行：通信算子的summary信息，包括通信算子名称、调用总次数、通信算子总耗时（单位：us）、通信算子平均耗时（单位：us）、通信算子最大耗时（单位：us）、通信算子最小耗时（单位：us）。
+- 第二行表头：通信算子的summary信息，包括通信算子名称、调用总次数、通信算子总耗时（单位：us）、通信算子平均耗时（单位：us）、通信算子最大耗时（单位：us）、通信算子最小耗时（单位：us）。
 - 无背景色的记录行：通信算子的detail信息，仅支持NPU，包含了该通信算子下的所有Task信息，包括Task名称、Task调用次数、Task总耗时（单位：us）、Task平均耗时（单位：us）、Task最大耗时（单位：us）、Task最小耗时（单位：us）。
 - Diff Ratio: 比较通信算子的总耗时 / 基准通信算子的总耗时，红色代表劣化。
 
@@ -203,10 +211,13 @@ nn.Module性能比对结果在performance_comparison_result_*.xlsl中ModuleCompa
 
 算子内存比对结果在performance_comparison_result_*.xlsl中MemoryCompare和MemoryCompareStatistic的sheet页呈现。
 
-- MemoryCompare(TOP)：算子为粒度的统计呈现，按照算子占用的总内存与基准算子的差距值(Diff Memory(MB))进行逆序。
+- MemoryCompareStatistic：算子为粒度的统计呈现，按照算子占用的总内存与基准算子的差距值(Diff Memory(MB))进行逆序。
 
 - MemoryCompare：算子内存比对的明细展示，可以查看每一个算子申请内存的详情。
 
 - Diff Ratio: 比较算子占用的总内存 / 基准算子占用的总内存，红色代表劣化。
 
 - Size(KB)：该算子占用的device内存大小，单位KB。
+
+步骤1：查看MemoryCompareStatistic页，找出内存占用差距TOP的算子。
+步骤2：查看MemoryCompare页，搜索内存占用差距TOP的算子，查看具体占用的子算子。
-- 
Gitee


From 218be9ef7753c776b87f87222803d2a10e38f120 Mon Sep 17 00:00:00 2001
From: user_10012209 <734267852@qq.com>
Date: Mon, 11 Mar 2024 11:45:55 +0800
Subject: [PATCH 5/6] =?UTF-8?q?[att\profiler\compare=5Ftools]=E6=A3=80?=
 =?UTF-8?q?=E8=A7=86=E6=84=8F=E8=A7=81=E4=BF=AE=E6=94=B9?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 profiler/compare_tools/README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/profiler/compare_tools/README.md b/profiler/compare_tools/README.md
index 80b793015..2807e2176 100644
--- a/profiler/compare_tools/README.md
+++ b/profiler/compare_tools/README.md
@@ -140,7 +140,7 @@ python performance_compare.py [基准性能数据文件] [比对性能数据文
 | Flash Attention Time(Backward)          | Flash Attention算子反向耗时。                                |
 | Computing Time                          | 计算流耗时，计算流所有event耗时总和。如果有多条并发计算，计算流耗时对重叠部分只会计算一次。 |
 | Mem Usage                               | 内存使用。GPU上的内存使用可以使用nvidia-smi查看，NPU上的内存使用可以使用npu-smi查看，Profiling信息采集时打开profile_memory=True开关，mem usage显示的是memory_record里面的最大resevered值，一般来说是进程级内存。 |
-| Uncovered Communication Time(Wait Time) | 通信未掩盖耗时，包含Wait Time为同步时间。                    |
+| Uncovered Communication Time(Wait Time) | 通信未掩盖耗时，包含Wait Time（只有采集性能数据的Level等级为L1以上并且采集NPU数据时才会存在）为同步时间。 |
 | SDMA Time(Num)                          | 拷贝类任务耗时，Num表示计算的次数。                          |
 | Free Time                               | 调度耗时 = E2E耗时 - 算子耗时 - 通信不可掩盖耗时。Free的定义为Device侧既不在通信又不在计算的时间，因此包含拷贝时间（SDMA Time）。 |
 | E2E Time(Not minimal profiling)         | E2E总耗时，计算流端到端耗时。当存在Not minimal profiling时，表示该时间存在性能膨胀，会影响通信和调度耗时。 |
-- 
Gitee


From bbb5346c58f1b41877502f23168ca4c7120c3efd Mon Sep 17 00:00:00 2001
From: user_10012209 <734267852@qq.com>
Date: Thu, 14 Mar 2024 16:05:03 +0800
Subject: [PATCH 6/6] =?UTF-8?q?[att\profiler\compare=5Ftools]=E6=8F=8F?=
 =?UTF-8?q?=E8=BF=B0=E4=BC=98=E5=8C=96?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 profiler/compare_tools/README.md | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/profiler/compare_tools/README.md b/profiler/compare_tools/README.md
index 2807e2176..106f53e11 100644
--- a/profiler/compare_tools/README.md
+++ b/profiler/compare_tools/README.md
@@ -179,7 +179,7 @@ activities配置仅采集NPU数据，不配置experimental_config参数以及其
 
 ### nn.Module性能
 
-nn.Module是所有神经网络模块的基类，使用PyTorch构建神经网络需要继承nn.Module类来实现，性能比对工具支持nn.Module模块级的比对，帮助优化模型结构。
+nn.Module是所有神经网络模块的基类，使用PyTorch构建神经网络需要继承nn.Module类来实现，性能比对工具支持模块级的比对（包含优化器和nn.Module），帮助优化模型结构。
 
 当用户采集时开启with_stack开关，会上报python function事件，当比对的双方数据都存在python function的事件时，可进行模块级别的比对。
 
@@ -193,8 +193,8 @@ nn.Module性能比对结果在performance_comparison_result_*.xlsl中ModuleCompa
 - Device Self Time(ms)：该模块调用的算子（排除子模块）在device侧执行的总耗时，单位ms。
 - Number：该Module或算子被调用的次数。
 - Device Total Time(ms)：该模块调用的算子（包含子模块）在device侧执行的总耗时，单位ms。
-- Device Total Time Diff：GPU与NPU的Device Total Time(ms)差值。
-- Device Self Time Diff：GPU与NPU的Device Self Time(ms)差值。
+- Device Total Time Diff(ms)：GPU与NPU的Device Total Time(ms)差值。
+- Device Self Time Diff(ms)：GPU与NPU的Device Self Time(ms)差值。
 - Total Time Ratio：GPU与NPU的Device Total Time(ms)比值。
 - Base Call Stack：基准文件模块的调用栈。
 - Comparison Call Stack：比较文件模块的调用栈。
-- 
Gitee