特性推荐配置

在大模型训练过程中,特性的配置是实现加速训练和优化性能的关键。这些特性被分类为三个层级:核心特性、基础特性和高阶特性,以适应不同用户的需求。

下面表格中包括了使能效果、属性、特性名称和说明等列,以详细展示各项特性的支持情况、所属类别、具体名称以及它们的功能描述

表1 特性推荐配置

使能效果

属性

特性名称

说明

并行加速

核心特性

Megatron数据并行

大模型训练常用的基本并行算法,通过分布式训练策略实现更大规模的模型训练。

Megatron张量并行

Megatron序列并行

流水线并行

性能提升

基础特性

虚拟流水并行

相对独立的性能优化特性,与核心特性兼容性较好,在对应的场景中较为常用。

Ulysses长序列并行

Ring Attention长序列并行

Megatron异步DDP

DropoutAddLayerNorm融合优化

Flash Attention融合优化

RMSNorm融合优化

SwiGLU融合优化

RoPE融合优化

MoE Token重排性能优化

高阶特性

Nano-Pipe流水线并行

高阶优化特性,通常仅针对某个特点场景进行深度优化,具备一定的局限性,具体可参考各个特性的详细介绍。

Megatron权重更新通信隐藏

计算通信并行优化

TP重计算通信优化

Ampipe流水通信隐藏

MLP通信隐藏

内存节省

基础特性

Megatron重计算

较为常用的内存优化特性,兼容性较好。

参数副本复用

激活函数重计算

内存碎片优化

Megatron分布式优化器

高阶特性

自适应选择重计算

针对特定场景的内存深度优化,具备一定的局限性,具体可参考各个特性的详细介绍。

重计算流水独立调度