在大模型训练过程中,特性的配置是实现加速训练和优化性能的关键。这些特性被分类为三个层级:核心特性、基础特性和高阶特性,以适应不同用户的需求。
下面表格中包括了使能效果、属性、特性名称和说明等列,以详细展示各项特性的支持情况、所属类别、具体名称以及它们的功能描述
使能效果 |
属性 |
特性名称 |
说明 |
---|---|---|---|
并行加速 |
核心特性 |
Megatron数据并行 |
大模型训练常用的基本并行算法,通过分布式训练策略实现更大规模的模型训练。 |
Megatron张量并行 |
|||
Megatron序列并行 |
|||
流水线并行 |
|||
性能提升 |
基础特性 |
虚拟流水并行 |
相对独立的性能优化特性,与核心特性兼容性较好,在对应的场景中较为常用。 |
Ulysses长序列并行 |
|||
Ring Attention长序列并行 |
|||
Megatron异步DDP |
|||
DropoutAddLayerNorm融合优化 |
|||
Flash Attention融合优化 |
|||
RMSNorm融合优化 |
|||
SwiGLU融合优化 |
|||
RoPE融合优化 |
|||
MoE Token重排性能优化 |
|||
高阶特性 |
Nano-Pipe流水线并行 |
高阶优化特性,通常仅针对某个特点场景进行深度优化,具备一定的局限性,具体可参考各个特性的详细介绍。 |
|
Megatron权重更新通信隐藏 |
|||
计算通信并行优化 |
|||
TP重计算通信优化 |
|||
Ampipe流水通信隐藏 |
|||
MLP通信隐藏 |
|||
内存节省 |
基础特性 |
Megatron重计算 |
较为常用的内存优化特性,兼容性较好。 |
参数副本复用 |
|||
激活函数重计算 |
|||
内存碎片优化 |
|||
Megatron分布式优化器 |
|||
高阶特性 |
自适应选择重计算 |
针对特定场景的内存深度优化,具备一定的局限性,具体可参考各个特性的详细介绍。 |
|
重计算流水独立调度 |