TP重计算通信优化

问题分析

在众多大规模模型训练实践中,结合使用重计算(Recomputation)与张量并行(Tensor Parallelism, TP)已成为标配策略。尽管重计算能显著降低显存消耗,却引入了额外的TP维度通信开销,导致TP维度通信耗时增长50%,整体计算时间增加约30%-40%。

解决方案

针对上述挑战,我们设计了一套综合通信优化方案,旨在消除不必要的通信算子,优化重计算层划分,进而显著提升大规模模型训练的通信性能。

解决思路

使用场景

适用于已启用全节点内张量并行且全面开启重计算的模型。

使用方法

通过设置如下参数选择不同级别的通信优化方案:

--optimize-recomp-communication-level  N      # N可设置为1或者2

使用效果

在Llama2-7B模型全重计算场景下,应用level=1通信优化方案可提升吞吐量2.0%,而level=2方案则带来4.1%的吞吐量增长,显著改善了训练效率。

注意事项