通信耗时建模

Tensor parallel通信耗时

图1 Tensor parallel通信耗时

Data parallel通信耗时

Data Parallel采用All-Reduce集合通信,通信可分为SDMA通信和RDMA通信两部分:

通信算法与并行度和Server数量相关。

Pipeline parallel耗时

耗时计算公式:Tpp(p)=α* (2Bytes/(b*d) + 2(p-1)) * (msg_size/bwinter + msg_size/bwintra )

  • msg_size=2Bytes*b*s*h/t。
  • bwintra为单条SDMA单向有效带宽。
  • bwinter为单条RDMA单向有效带宽。