diff --git a/docs/mindspore/source_zh_cn/design/multi_level_compilation.md b/docs/mindspore/source_zh_cn/design/multi_level_compilation.md index 8b5980200afcc0b0dedb59cc1327c2f9192d7556..9d23392b74969e630fb7fc1916a44f4b2d4d8881 100644 --- a/docs/mindspore/source_zh_cn/design/multi_level_compilation.md +++ b/docs/mindspore/source_zh_cn/design/multi_level_compilation.md @@ -12,4 +12,12 @@ MindSpore 2.3.0以前的版本,静态图模式采用整图下沉到Device侧 ## 多级编译O1级别介绍 +O1主要定位于在O0基础上实现通用、可泛化的AI编译优化,以支持大部分通用训练、推理场景的更好执行性能需求。 + +在当前阶段,O1主要支持了图算融合优化。其主要思路是在静态图编译阶段,自动识别计算图中相邻的可融合节点,然后将其融合为更大粒度的可执行算子。通过图算融合,实现增加算子计算局部性、减少整体全局内存访存带宽开销等优化效果。通过对15+网络的实测验证,O1能够实现相比O0平均15%的性能加速。特别是对于访存密集型网络,O1优化效果更加显著。图算融合的具体设计细节可参考:[图算融合引擎](https://gitee.com/mindspore/docs/blob/master/docs/mindspore/source_zh_cn/design/graph_fusion_engine.html)。 + +除了图算融合之外,在后续版本中,O1可能会逐步扩展增加一些其它图优化技术。比如: +1. KernelPacket: 用于在动态shape场景对shape计算进行自动融合和优化; +2. 通算融合:将通信算子与计算算子进行融合。 + ## 多级编译O2级别介绍