diff --git a/msmonitor/README.md b/msmonitor/README.md index a0442c3435828effc3b4129cb4256de4142e4c35..e6821f0de2348c49dbb723b1466ef5e2a680238d 100644 --- a/msmonitor/README.md +++ b/msmonitor/README.md @@ -16,11 +16,11 @@ msMonitor是MindStudio推出的一站式在线监控工具,提供用户在集 ## 💻 版本说明 msMonitor由三个文件组成,其中dyno和dynolog可以被打包为deb包或者rpm包。最新的预编译安装包和版本依赖请查看[msMonitor release](./docs/release_notes.md)。目前msMonitor支持在[PyTorch](https://gitee.com/ascend/pytorch)框架和[MindSpore](https://www.mindspore.cn/)框架上运行。 -| 文件名 | 用途 | -|----------------------------------------------------------------|------------------------------------------------| -| dyno | dyno客户端二进制文件 | -| dynolog | dynolog服务端二进制文件 | -| msmonitor_plugin-0.1-cp{version}-cp{version}-linux_aarch64.whl | MSPTI Monitor、IPC等公共能力工具包,{version}表示python版本号 | +| 文件名 | 用途 | +|-------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------| +| dyno | dyno客户端二进制文件 | +| dynolog | dynolog服务端二进制文件 | +| msmonitor_plugin-{mindstudio_version}-cp{version}-cp{version}-linux_{system_architecture}64.whl | MSPTI Monitor、IPC等公共能力工具包,{mindstudio_version}表示mindstudio版本号,{version}表示python版本号,{system_architecture}表示CPU架构系统 | ## 🚀 快速上手 ### Step 1: 安装 @@ -49,7 +49,7 @@ dynolog --enable-ipc-monitor --certs-dir /home/server_certs --metric_log_dir /tm export MSMONITOR_USE_DAEMON=1 ``` -3. 设置LD_PRELOAD使能MSPTI +3. 设置LD_PRELOAD使能MSPTI(使能npumonitor功能设置) ```bash # 默认路径示例:export LD_PRELOAD=/usr/local/Ascend/ascend-toolkit/latest/lib64/libmspti.so export LD_PRELOAD=/ascend-toolkit/latest/lib64/libmspti.so @@ -60,10 +60,14 @@ bash run_ai_task.sh ``` 5. 使用dyno命令行触发npumonitor监控关键算子耗时 ```bash -# 上报周期30s, 上报数据类型为Kernel -dyno --certs-dir /home/client_certs npu-monitor --report-interval-s 30 --mspti-activity-kind Kernel +# 开启npu-monitor,上报周期30s, 上报数据类型为Kernel +dyno --certs-dir /home/client_certs npu-monitor --npu-monitor-start --report-interval-s 30 --mspti-activity-kind Kernel ``` -6. 使用dyno命令行触发nputrace采集详细trace数据 +```bash +# 关闭npu-monitor +dyno --certs-dir /home/client_certs npu-monitor --npu-monitor-stop +``` +6. 使用dyno命令行触发nputrace采集详细trace数据(需要关闭npumonitor功能才能触发nputrace功能) ```bash # 从第10个step开始采集,采集2个step,采集框架、CANN和device数据,同时采集完后自动解析以及解析完成不做数据精简,落盘路径为/tmp/profile_data dyno --certs-dir /home/client_certs nputrace --start-step 10 --iterations 2 --activities CPU,NPU --analyse --data-simplification false --log-file /tmp/profile_data diff --git a/msmonitor/docs/dynolog.md b/msmonitor/docs/dynolog.md index 3f97141cf4a9aa61644db317f0df1f44c63baeae..2d4486fb276ce9b604ab6c45075d5b320dcb3a22 100644 --- a/msmonitor/docs/dynolog.md +++ b/msmonitor/docs/dynolog.md @@ -1,4 +1,4 @@ -# dynolg介绍 +# dynolog介绍 dynolog负责接收dyno CLI的RPC请求,触发nputrace和npumonitor功能。 @@ -18,11 +18,11 @@ dynolog --enable-ipc-monitor --certs-dir /home/server_certs ## dynolog常用参数 -| 命令 | 参数类型 | 说明 | 是否必选 | -|---------------------|--------|------------------------------------------------------|:----:| -| --enable-ipc-monitor | action | 是否启用IPC监控功能,用于与dyno进行通信,设置参数开启,默认不开启 | N | -| --port | i32 | dynolog daemon进程监听的端口号,默认值1778 | N | +| 命令 | 参数类型 | 说明 | 是否必选 | +|---------------------|--------|-----------------------------------------------------|:----:| +| --enable-ipc-monitor | action | 是否启用IPC监控功能,用于与dyno进行通信,设置参数开启,默认不开启 | N | +| --port | i32 | dynolog daemon进程监听的端口号,默认值1778 | N | | --certs-dir | String | 用于指定dyno与dynolog RPC通信时TLS证书的路径,当值为`NO_CERTS`时不使用证书校验 | Y | -| --metric_log_dir | String | 用于指定Metrics数据的落盘路径 | N | -| --use_JSON | action | 是否使用JSON格式记录metric数据到日志中,默认不启用 | N | +| --metric_log_dir | String | 用于指定Metric数据的落盘路径 | N | +| --use_JSON | action | 是否使用JSON格式记录metric数据到日志中,默认不启用 | N | diff --git a/msmonitor/docs/npumonitor.md b/msmonitor/docs/npumonitor.md index f7e1a80b649079d9d96c6e9626cca0941e6f7b56..8dc112b6857fb5fc7ec3bfc9b3cd617d5bd77b1b 100644 --- a/msmonitor/docs/npumonitor.md +++ b/msmonitor/docs/npumonitor.md @@ -92,6 +92,6 @@ pip install tensorboard # 然后运行: tensorboard --logdir={metric_log_dir} # metric_log_dir为Step1中dynolog命令行中--metric_log_dir参数指定的路径 -# 打开浏览器访问http://localhost:6006即可看到对应可视化图表, 其中6006为tensorboard默认端口 +# 打开浏览器访问http://localhost:6006即可看到对应可视化图表, 其中localhost为服务器的ip地址,6006为tensorboard默认端口 ``` > tensorboard 具体使用参数见https://github.com/tensorflow/tensorboard \ No newline at end of file diff --git a/msmonitor/docs/nputrace.md b/msmonitor/docs/nputrace.md index 58bf38ea1ef9c8d524874af3c45579c9276fcfc8..5e5e52737c49d4f2e1b79033d5dd4aa3b1a3b052 100644 --- a/msmonitor/docs/nputrace.md +++ b/msmonitor/docs/nputrace.md @@ -56,10 +56,6 @@ Step 1:拉起dynolog daemon进程,详细介绍请参考[dynolog介绍](./dyn ```bash # 命令行方式开启dynolog daemon dynolog --enable-ipc-monitor --certs-dir /home/server_certs - -# 如需使用Tensorboard展示数据,传入参数--metric_log_dir用于指定Tensorboard文件落盘路径 -# 例如: -dynolog --enable-ipc-monitor --certs-dir /home/server_certs --metric_log_dir /tmp/metric_log_dir # dynolog daemon的日志路径为:/var/log/dynolog.log ``` Step 2:在训练/推理任务拉起窗口使能dynolog环境变量 diff --git a/msmonitor/plugin/README.md b/msmonitor/plugin/README.md index 62b85ecc09a27583514ebfd15978c326af92111d..c209e8b91a1b02b0c23750b1f34b0904491535c0 100644 --- a/msmonitor/plugin/README.md +++ b/msmonitor/plugin/README.md @@ -1,5 +1,3 @@ - - # msmonitor-plugin编包指导 ## 模块说明 ### IPCMonitor @@ -10,7 +8,7 @@ __PyDynamicMonitorProxy接口说明__: * `init_dyno` 向dynolog daemon发送注册请求 * input: npuId(int) - * return:None + * return: None * `poll_dyno` 向dynolog daemon获取Profiler控制参数 * input: None * return: str,返回控制参数