文档
注册
评分
提单
论坛
小AI

P2P_HCCL_BUFFSIZE

功能描述

此环境变量用于控制是否开启点对点通信(torch.distributed.isend、torch.distributed.irecv和torch.distributed.batch_isend_irecv)使用独立通信域功能。

  • 配置为0或未配置时:关闭点对点通信使用独立通信域功能。
  • 配置大于等于1时:开启点对点通信使用独立通信域功能,并且缓存区大小为配置值。

当开启点对点通信使用独立通信域功能时,每一个通信域都会额外占用P2P_HCCL_BUFFSIZE大小的缓存区。若集群网络中存在较多的通信域,此缓存区占用量就会增多,可能存在影响模型数据正常存放的风险,此种场景下,可通过此环境变量减少点对点通信域占用的缓存区大小;若业务的模型数据量较小,但点对点通信数据量较大,则可通过此环境变量增大点对点通信域占用的缓存区大小,提升点对点通信效率。单位为M,建议配置值为20。

  • 该环境变量申请的内存为HCCL独占,不可与其他业务内存复用。
  • 每个通信域额外占用“2*P2P_HCCL_BUFFSIZE”大小的内存,分别用于收发内存。
  • 该资源按通信域粒度管理,每个通信域独占一组“2*P2P_HCCL_BUFFSIZE”大小的内存。

配置示例

export P2P_HCCL_BUFFSIZE=20

使用约束

此环境变量仅适用于PyTorch网络,且使用HCCL作为通信后端的场景。

支持的型号

Atlas 训练系列产品

Atlas A2 训练系列产品

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词