one forward one backward(1F1B)策略下:
相关耗时计算公式:
参数解释:
Bubble占比=Bubble time/Total time = (p-1)/(m+p-1),其中m = global batch size/data parallel/micro batch size。
部署时需要减少Bubble占比,即减少p或者增加m的比例。
网络配置及部署参数如表1所示(举例):
Vocab Size(v) |
Seq Length(s) |
Attn heads(ah) |
Hidden size(h) |
Layers(n) |
DP(d) |
TP(t) |
PP(p) |
卡数 |
micro batch size(b) |
Global batch size(B) |
---|---|---|---|---|---|---|---|---|---|---|
51200 |
1024 |
96 |
12288 |
64 |
1 |
8 |
8 |
64 |
4 |
96 |
如下图所示,在1F1B策略下,NOTIFY_WAIT_SQE的红色标记处耗时,属于理论上的Bubble耗时。