HCCL_RDMA_PCIE_DIRECT_POST_NOSTRICT
功能描述
如下场景下,当通信算子下发性能Host Bound时,开发者可通过此环境变量设置通过PCIe Direct的方式提交RDMA任务,提升通信算子下发性能:
- 多机通信场景。
- Host操作系统小页内存页表大小不是4KB。
此环境变量支持如下取值:
- TRUE:代表通过PCIe Direct的方式提交RDMA任务 。
- FALSE:代表通过HDC(Host Device Communication,主机设备通信)方式提交RDMA任务。
若不配置此环境变量,如果Host侧小页内存页表大小是4KB,采用RDMA Direct方式提交RDMA任务;如果Host侧小页内存页表大小不是4KB,采用HDC方式提交RDMA任务。
- 此环境变量设置为TRUE时,会额外消耗Device侧的大页内存(每个通信链路会额外多占用1MB的大页内存)。
- 如果开发者既想通过此环境变量提升通信算子下发性能,又想节省Device侧大页内存占用,可通过HCCL_ALGO环境变量将server间通信算法设置为ring,以控制通信链接数量。
export HCCL_ALGO="level0:NA;level1:ring"
配置示例
export HCCL_RDMA_PCIE_DIRECT_POST_NOSTRICT=TRUE
使用约束
使用此环境变量时,需要满足功能描述中所述场景,即:
- 多机通信场景。
- Host操作系统小页内存页表大小不是4KB。
支持的型号
Atlas A2 训练系列产品
父主题: 集合通信