diff --git a/SECURITYNOTE.md b/SECURITYNOTE.md index 7988d28b3d63dbe6004d40b80d03fcf75a2af67d..4d96539a6378b27579531591ffba6ba717c9f9f2 100644 --- a/SECURITYNOTE.md +++ b/SECURITYNOTE.md @@ -46,7 +46,8 @@ 1. 建议用户结合运行资源状况编写对应训练脚本。若训练脚本与资源状况不匹配,如数据集加载内存大小超出内存容量限制、训练脚本在本地生成数据超过磁盘空间大小等情况,可能引发错误并导致进程意外退出。 2. MindSpeed-LLM内部用到了pytorch,可能会因为版本不匹配导致运行错误,具体可参考pytorch[安全声明](https://gitee.com/ascend/pytorch#%E5%AE%89%E5%85%A8%E5%A3%B0%E6%98%8E)。 - +3. 出于安全考虑torch.load应当配置为weights_only=True,因影响业务正常运行,保持配置为False,并提供告警声明。 +> 注:请客户严格使用官网等安全可靠的链接获取权重来源,并且做好模型完整性校验,并且确保执行环境安全,避免被恶意篡改。 ## 公网地址声明 diff --git a/docs/pytorch/features/environment_variable.md b/docs/pytorch/features/environment_variable.md index 9caa2c89b6765d7a983cd1a89781bad515899008..9156f4e05e7ceb89e7c53f4ad9c758f45b14832e 100644 --- a/docs/pytorch/features/environment_variable.md +++ b/docs/pytorch/features/environment_variable.md @@ -2,18 +2,22 @@ 以上模型列表中脚本的环境变量说明具体如下: -| 环境变量名称 | 环境变量描述 | -|-----------------------------|---------------------------------------------------------------------------| -| ASCEND_LAUNCH_BLOCKING | 将Host日志输出到串口,0-关闭/1-开启。 | -| ASCEND_SLOG_PRINT_TO_STDOUT | 设置默认日志级别,0-debug/1-info/2-warning/3-error。 | -| HCCL_WHITELIST_DISABLE | HCCL白名单开关,1-关闭/0-开启。 | -| HCCL_CONNECT_TIMEOUT | 设置HCCL超时时间,默认值为120。 | -| CUDA_DEVICE_MAX_CONNECTIONS | 定义了任务流能够利用或映射到的硬件队列的数量。 | -| TASK_QUEUE_ENABLE | 用于控制开启task_queue算子下发队列优化的等级,0:关闭,1:开启Level 1优化,2:开启Level 2优化。 | -| COMBINED_ENABLE | 设置combined标志。设置为0表示关闭此功能;设置为1表示开启,用于优化非连续两个算子组合类场景。 | -| PYTORCH_NPU_ALLOC_CONF | 内存碎片优化开关,默认是expandable_segments:False,使能时expandable_segments:True。 | -| ASCEND_RT_VISIBLE_DEVICES | 指定哪些Device对当前进程可见,支持一次指定一个或多个Device ID。通过该环境变量,可实现不修改应用程序即可调整所用Device的功能。 | -| NPUS_PER_NODE | 配置一个计算节点上使用的NPU数量。 | -| HCCL_SOCKET_IFNAME | 指定hccl socket通讯走的网卡配置。 | -| GLOO_SOCKET_IFNAME | 指定gloo socket通讯走的网卡配置。 | -| HCCL_LOGIC_SUPERPOD_ID | 指定当前设备的逻辑超节点ID,如果走ROCE,不同多机超节点ID不同,0-N。 | \ No newline at end of file +| 环境变量名称 | 环境变量描述 | 链接 | +|-----------------------------|------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------| +| ASCEND_LAUNCH_BLOCKING | 1:强制算子采用同步模式运行会导致性能下降,会屏蔽task_queue队列优化功能;0:会增加内存消耗,有OOM的风险。 | https://www.hiascend.com/document/detail/zh/Pytorch/710/comref/Envvariables/Envir_006.html | +| ASCEND_SLOG_PRINT_TO_STDOUT | 0:关闭日志打屏,日志采用默认输出方式,将日志保存在log文件中;1:开启日志打屏,日志将不会保存在log文件中,直接打屏显示。 | https://www.hiascend.com/document/detail/zh/canncommercial/82RC1/maintenref/envvar/envref_07_0121.html | +| HCCL_WHITELIST_DISABLE | HCCL白名单开关,1-关闭/0-开启。 | https://www.hiascend.com/document/detail/zh/canncommercial/82RC1/maintenref/envvar/envref_07_0085.html | +| HCCL_CONNECT_TIMEOUT | 设置HCCL超时时间,默认值为120。 | https://www.hiascend.com/document/detail/zh/canncommercial/82RC1/maintenref/envvar/envref_07_0077.html | +| CUDA_DEVICE_MAX_CONNECTIONS | 定义了任务流能够利用或映射到的硬件队列的数量。 | 无 | +| TASK_QUEUE_ENABLE | 用于控制开启task_queue算子下发队列优化的等级,0:关闭,1:开启Level 1优化,2:开启Level 2优化。 | https://www.hiascend.com/document/detail/zh/Pytorch/710/comref/Envvariables/Envir_007.html | +| COMBINED_ENABLE | 设置combined标志。设置为0表示关闭此功能;设置为1表示开启,用于优化非连续两个算子组合类场景。 | https://www.hiascend.com/document/detail/zh/Pytorch/710/comref/Envvariables/Envir_005.html | +| PYTORCH_NPU_ALLOC_CONF | 内存碎片优化开关,默认是expandable_segments:False,使能时expandable_segments:True。还有内存管理和碎片回收管理接口。 | https://www.hiascend.com/document/detail/zh/Pytorch/710/comref/Envvariables/Envir_012.html | +| ASCEND_RT_VISIBLE_DEVICES | 指定哪些Device对当前进程可见,支持一次指定一个或多个Device ID。通过该环境变量,可实现不修改应用程序即可调整所用Device的功能。 | https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/83RC1alpha001/maintenref/envvar/envref_07_0028.html | +| NPUS_PER_NODE | 配置一个计算节点上使用的NPU数量。 | 无 | +| HCCL_SOCKET_IFNAME | 指定hccl socket通讯走的网卡配置。 | https://www.hiascend.com/document/detail/zh/canncommercial/82RC1/maintenref/envvar/envref_07_0075.html | +| GLOO_SOCKET_IFNAME | 指定gloo socket通讯走的网卡配置。 | 无 | +| HCCL_LOGIC_SUPERPOD_ID | 指定当前设备的逻辑超节点ID,如果走ROCE,不同多机超节点ID不同,0-N。 | https://www.hiascend.com/document/detail/zh/canncommercial/82RC1/maintenref/envvar/envref_07_0100.html | +| CPU_AFFINITY_CONF | 开启粗/细粒度绑核。该配置能够避免线程间抢占,提高缓存命中,避免跨NUMA节点的内存访问,减少任务调度开销,优化任务执行效率。 | https://www.hiascend.com/document/detail/zh/Pytorch/710/comref/Envvariables/Envir_033.html | +| NPU_ASD_ENABLE | 0:关闭检测功能; 1:开启特征值检测功能,打印异常日志,不告警;2:开启,并告警;3:开启,告警,并再device侧info级别日志中记录过程数据。 | https://www.hiascend.com/document/detail/zh/Pytorch/710/comref/Envvariables/Envir_029.html | +| HCCL_ASYNC_ERROR_HANDLING | 当使用HCCL用于通信时,0:不开启异步错误处理;1:开启异步错误处理,默认值为1 | https://www.hiascend.com/document/detail/zh/Pytorch/710/comref/Envvariables/Envir_018.html | +