特性推荐配置

在大模型训练过程中,特性的配置是实现加速训练和优化性能的关键。这些特性被分类为三个层级:核心特性、基础特性和高阶特性,以适应不同用户的需求。

下面表格中包括了使能效果、属性、特性名称和说明等,详细展示各项特性的支持情况、所属类别、具体名称以及功能描述。

表1 特性推荐配置

使能效果

属性

特性名称

说明

并行加速

核心特性

Megatron数据并行

大模型训练常用的基本并行算法,通过分布式训练策略实现更大规模的模型训练。

Megatron张量并行

Megatron序列并行

Megatron流水线并行

性能提升

基础特性

Megatron虚拟流水并行

相对独立的性能优化特性,与核心特性兼容性较好,在对应的场景中较为常用。

Ulysses长序列并行

Ring Attention长序列并行

Megatron异步DDP

DropoutAddLayerNorm融合优化

Flash Attention融合优化

RMSNorm融合优化

SwiGLU融合优化

RoPE融合优化

MoE Token重排性能优化

高阶特性

Nano-Pipe流水线并行

高阶优化特性,通常仅针对某个特定场景进行深度优化,具备一定的局限性,具体可参考各个特性的详细介绍。

Megatron权重更新通信隐藏

计算通信并行优化

MLP通信隐藏

内存节省

基础特性

Megatron重计算

较为常用的内存优化特性,兼容性较好。

参数副本复用

激活函数重计算

Megatron分布式优化器

高阶特性

自适应选择重计算

针对特定场景的内存深度优化,具备一定的局限性,具体可参考各个特性的详细介绍。

重计算流水独立调度