P2P_HCCL_BUFFSIZE
功能描述
此环境变量用于控制是否开启点对点通信(torch.distributed.isend、torch.distributed.irecv和torch.distributed.batch_isend_irecv)使用独立通信域功能。
- 配置为0或未配置时:关闭点对点通信使用独立通信域功能。
- 配置大于等于1时:开启点对点通信使用独立通信域功能,并且缓存区大小为配置值。
当开启点对点通信使用独立通信域功能时,每一个通信域都会额外占用P2P_HCCL_BUFFSIZE大小的缓存区。若集群网络中存在较多的通信域,此缓存区占用量就会增多,可能存在影响模型数据正常存放的风险,此种场景下,可通过此环境变量减少点对点通信域占用的缓存区大小;若业务的模型数据量较小,但点对点通信数据量较大,则可通过此环境变量增大点对点通信域占用的缓存区大小,提升点对点通信效率。单位为M,建议配置值为20。
- 该环境变量申请的内存为HCCL独占,不可与其他业务内存复用。
- 每个通信域额外占用“2*P2P_HCCL_BUFFSIZE”大小的内存,分别用于收发内存。
- 该资源按通信域粒度管理,每个通信域独占一组“2*P2P_HCCL_BUFFSIZE”大小的内存。
配置示例
export P2P_HCCL_BUFFSIZE=20
使用约束
此环境变量仅适用于PyTorch网络,且使用HCCL作为通信后端的场景。
支持的型号
Atlas 训练系列产品
Atlas A2 训练系列产品