在大规模集群下,Gloo通信存在规模限制和稳定性问题。一方面,容易出现Gloo通信组创建失败的情况;另一方面,与HCCL通信相比,Gloo通信较慢。
当Gloo通信频繁出现建链失败时,模型启动效率较低,此时需要通过替换Gloo通信组来提升效率。
--disable-gloo-group
--hccl-slice-size N
该参数的有效区间为 (0, bucket_size/dp],其中bucket_size为分布式优化器中每个桶的大小。建议在显存允许的情况下,尽量增大该参数,以提高通信效率。
建链失败率降低,稳定性增加。开启该特性后,分布式优化器状态保存和加载的通信效率在一定范围内得到提升,且显存也将增加。显存的增加量为hccl_slice_size * (2 * dp + 1) * 4B。