Pipeline并行Bubble耗时占比分析

分析内容

one forward one backward(1F1B)策略下:

图1 pipeline并行bubble占比分析

相关耗时计算公式:

参数解释:

Bubble占比=Bubble time/Total time = (p-1)/(m+p-1),其中m = global batch size/data parallel/micro batch size。

优化手段

部署时需要减少Bubble占比,即减少p或者增加m的比例。

在profiling数据中查看Bubble耗时

网络配置及部署参数如表1所示(举例):

表1 网络配置及部署参数表

Vocab Size(v)

Seq Length(s)

Attn heads(ah)

Hidden size(h)

Layers(n)

DP(d)

TP(t)

PP(p)

卡数

micro batch size(b)

Global batch size(B)

51200

1024

96

12288

64

1

8

8

64

4

96

如下图所示,在1F1B策略下,NOTIFY_WAIT_SQE的红色标记处耗时,属于理论上的Bubble耗时。

图2 Bubble耗时
图3 NOTIFY_WAIT_SQE耗时记录