# MindSpeed_overlap **Repository Path**: EX_mitsu/MindSpeed_overlap ## Basic Information - **Project Name**: MindSpeed_overlap - **Description**: 昇腾大模型加速库 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 457 - **Created**: 2025-04-21 - **Last Updated**: 2025-06-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
层级 | 层级名称 | 介绍 |
---|---|---|
0 | 基础功能兼容 | 提供Megatron-LM框架对NPU的基本功能适配。 |
1 | 亲和性增强🔥 | 在L0基础上使能部分融合算子与昇腾亲和计算改写。 |
2 | 加速特性使能🔥🔥 | 默认值。在L0、L1基础上开启更丰富的加速特性,加速特性通常通过具体参数使能,可参考“特性介绍”章节。 |
特性名称 | 介绍 | Released |
---|---|---|
Megatron 数据并行 | link | ✅ |
Megatron 张量并行 | link | ✅ |
Megatron 流水并行 | link | ✅ |
Megatron 虚拟流水并行 | link | ✅ |
Megatron 分布式优化器 | link | ✅ |
Megatron 序列并行 | link | ✅ |
Megatron 异步DDP | link | ✅ |
Megatron 权重更新通信隐藏 | link | ✅ |
Megatron 重计算 | link | ✅ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend Ulysses 长序列并行 | link | ✅ |
Ascend Ring Attention 长序列并行 | link | ✅ |
Ascend Double Ring Attention 长序列并行 | link | ❌ |
Ascend 混合长序列并行 | link | ✅ |
Ascend 自定义空操作层 | link | ✅ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend 激活函数重计算 | link | ❌ |
Ascend 重计算流水线独立调度 | link | ❌ |
Ascend Mask归一 | link | ✅ |
Ascend BF16 参数副本复用 | link | ❌ |
Ascend swap_attention | link | ❌ |
Ascend Norm重计算 | link | ❌ |
Ascend Hccl Buffer 自适应 | link | ❌ |
Ascend Swap Optimizer | link | ✅ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend rms_norm 融合算子 | link | ✅ |
Ascend swiglu 融合算子 | link | ✅ |
Ascend rotary_embedding 融合算子 | link | ✅ |
Ascend flash attention | link | ✅ |
Ascend npu_matmul_add_fp32 梯度累加融合算子 | link | ✅ |
Ascend 计算通信并行优化 | link | ❌ |
Ascend MC2(存在已知问题⚠️) | link | ❌ |
Ascend fusion_attention_v2 | link | ❌ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend Gloo 存档落盘优化 | link | ❌ |
Ascend 高维张量并行 | link | ❌ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend Megatron MoE GMM | link | ✅ |
Ascend Megatron MoE Allgather Dispatcher 性能优化 | link | ❌ |
Ascend Megatron MoE Alltoall Dispatcher 性能优化 | link | ❌ |
Ascend Megatron MoE TP拓展EP | link | ❌ |
Ascend 共享专家 | link | ✅ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend EOD Reset训练场景 | link | ❌ |
Ascend alibi | link | ❌ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend fused ema adamw优化器 | link | ❌ |
Ascend PP支持动态形状 | link | ❌ |
Ascend PP支持多参数传递 | link | ❌ |
Ascend PP支持多参数传递和动态形状 | link | ❌ |
Ascend 非对齐线性层 | link | ✅ |
Ascend 非对齐Ulysses长序列并行 | link | ✅ |
特性名称 | 介绍 | Released |
---|---|---|
Ascend TFLOPS计算 | link | ❌ |
Ascend Auto Settings 并行策略自动搜索系统 | link | ❌ |
Ascend 确定性计算 | link | ✅ |
自定义算子名称 | 介绍 | Released |
---|---|---|
npu_dropout_add_layer_norm | link | ✅ |
npu_rotary_position_embedding | link | ✅ |
fusion_attention | link | ✅ |
rms_norm | link | ✅ |
swiglu | link | ✅ |
npu_mm_all_reduce_add_rms_norm | link | ✅ |
npu_mm_all_reduce_add_rms_norm_ | link | ✅ |
npu_gmm | link | ✅ |
npu_grouped_mat_mul_all_reduce | link | ✅ |
npu_fused_moe_token_permute | link | ✅ |
npu_fused_moe_token_unpermute | link | ✅ |
npu_ring_attention_update | link | ✅ |
npu_matmul_add_fp32 | link | ✅ |
npu_groupmatmul_add_fp32 | link | ✅ |
npu_apply_fused_ema_adamw | link | ✅ |
lcal_coc | link | ❌ |
ffn | link | ❌ |
npu_all_to_all_all_gather_bmm | link | ❌ |
npu_bmm_reduce_scatter_all_to_all | link | ❌ |
quant_gmm | link | ❌ |
npu_apply_fused_adamw_v2 | link | ✅ |