HCCL_IF_BASE_PORT
功能描述
OPBase模式下,使用Host网卡进行HCCL初始化或集合通信计算时,可以通过该环境变量指定Host网卡起始端口号,配置后系统默认占用以该端口起始的16个端口。
默认值为60000,取值范围[0,65520]。
配置示例
export HCCL_IF_BASE_PORT = 50000
使用约束
分布式训练场景下,HCCL会使用Host服务器的部分端口进行集群信息收集,需要操作系统预留该部分端口。
- 若不通过HCCL_IF_BASE_PORT环境变量指定端口,默认HCCL使用60000-60015端口,需要执行如下命令预留此范围的操作系统端口:
sysctl -w net.ipv4.ip_local_reserved_ports=60000-60015
- 若通过HCCL_IF_BASE_PORT环境变量指定端口,例如指定端口为50000,则HCCL使用50000-50015端口,需要执行如下命令预留此范围的操作系统端口:
sysctl -w net.ipv4.ip_local_reserved_ports=50000-50015
父主题: 集合通信与分布式训练