特性列表

为确保MindSpeed在昇腾设备上实现大模型训练的全方位加速与优化,以下特性列表概述了关键功能与优势,旨在从计算性能、内存资源、通信性能、并行算法以及差异化能力支持等多个维度,全面提升大模型训练的效率与稳定性。

表1 特性列表

特性类别

特性说明

特性名称

Mcore

Legacy

并行算法优化

提供昇腾亲和的多维度并行加速

Megatron数据并行

Megatron张量并行

Megatron序列并行

Megatron流水线并行

Megatron虚拟流水并行

Nano-Pipe流水线并行

Ulysses长序列并行

Ring Attention长序列并行

Hybrid长序列并行

内存资源优化

支持高效内存算法,最大化性能无损

Megatron重计算

Megatron分布式优化器

自适应选择重计算

激活函数重计算

重计算流水独立调度

参数副本复用

Norm重计算

通信性能优化

发挥极致通信性能,实现计算与通信并行

Megatron异步DDP

计算通信并行优化

Megatron权重更新通信隐藏

MLP通信隐藏

自定义空操作层

Megatron MoE AllGather Dispatcher性能优化

Megatron MoE TP拓展EP

AlltoAll Dispatcher并行优化(敬请期待)

-

-

计算性能优化

全场景高性能融合算子加速库,昇腾亲和优化

DropoutAddLayerNorm融合优化

Flash Attention融合优化

RMSNorm融合优化

SwiGLU融合优化

RoPE融合优化

Matmul_Add融合优化

MoE Token重排性能优化

MoE Token Permute and Unpermute融合优化

Megatron MoE GMM

差异化能力支持

在长序列、权重保存、并行策略自动搜索等场景提供差异化能力

支持EoD重置

Gloo存档落盘优化

共享专家

大模型并行策略自动搜索Auto Tuning

  • 目前MindSpeed支持Megatron MoE和Deepspeed MoE两种实现,可通过如下参数进行配置。
    --moe-model-type deepspeed_moe      # 使用DeepSpeed MoE实现方案
    --moe-model-type megatron_moe       # 使用Megatron MoE实现方案
  • Mcore为当前主要演进分支,推荐使用。Mcore相较于Legacy,采用更加解耦和模块化的设计,提供更灵活的接口和底层功能,特别适合需要自定义训练过程的用户。
  • Legacy以功能维护为主,不继续演进。