HCCL_IF_BASE_PORT
功能描述
单算子模式下,使用Host网卡进行HCCL初始化或集合通信计算时,可以通过该环境变量指定Host网卡起始端口号,配置后系统默认占用以该端口起始的16个端口进行集群信息收集。
该环境变量需要配置为整数,取值范围为[1024,65520],请确保分配的端口未被占用。
配置示例
export HCCL_IF_BASE_PORT=50000
使用约束
分布式训练场景下,HCCL会使用Host服务器的部分端口进行集群信息收集,需要操作系统预留该部分端口。
- 若不通过HCCL_IF_BASE_PORT环境变量指定端口,默认HCCL使用60000-60015端口,需要执行如下命令预留此范围的操作系统端口:
sysctl -w net.ipv4.ip_local_reserved_ports=60000-60015
- 若通过HCCL_IF_BASE_PORT环境变量指定端口,例如指定端口为50000,则HCCL使用50000-50015端口,需要执行如下命令预留此范围的操作系统端口:
sysctl -w net.ipv4.ip_local_reserved_ports=50000-50015
支持的型号
Atlas 训练系列产品
Atlas 300I Duo 推理卡
Atlas A2 训练系列产品
父主题: 集合通信相关配置