在Tensor并行和Sequence并行基础上叠加计算和通信并行。常规做法中,仅仅在①的反向中实现了通信(Allgather/Reduce-scatter)与matmul计算并行,而①的正向、②的正向、②的反向均为实现通信与matmul计算的并行。