下载
中文
注册

HCCL_RDMA_QP_PORT_CONFIG_PATH

功能描述

两个rank之间RDMA通信时会默认创建1个QP(Queue Pair)进行数据传输,若开发者想让两个rank之间的RDMA通信使用多个QP,并指定多QP通信时使用的源端口号,可通过此环境变量实现。

开发者可通过此环境变量指定<srcIP,dstIP>与端口映射关系配置文件的存储路径,当<srcIP,dstIP>配置多个端口号时,即开启多QP通信,所配置的端口号即为每个QP使用的源端口。

该环境变量配置示例如下:

export HCCL_RDMA_QP_PORT_CONFIG_PATH=/home/tmp

其中“/home/tmp”为<srcIP,dstIP>与端口映射关系配置文件“MultiQpSrcPort.cfg”的存储路径,支持配置为绝对路径或相对路径,该路径最大长度需要小于等于4096个字符。

“MultiQpSrcPort.cfg”文件需要用户自定义(注意文件命名需要保持为“MultiQpSrcPort.cfg”),配置格式如下:

srcIP1,dstIP1=srcPort0,srcPort1,...,srcPortN
srcIPN,dstIPN=srcPort0,srcPort1,...,srcPortN
  • 该文件支持的最大配置行数为128*1024=131072。
  • 每个<srcIP,dstIP>地址对最多支持配置32个端口,但建议不超过8个端口,因为QP个数超过8时无法确保性能收益,还可能会造成由于内存占用过多导致业务运行失败的情况。
  • 每个<srcIP,dstIP>地址对在该文件中仅允许出现一次。
  • srcIP、dstIP需要为常规IPv4格式,不支持IPv6格式。
  • srcIP、dstIP支持配置为“0.0.0.0”,代表所有IP地址。

“MultiQpSrcPort.cfg”文件配置示例如下:

192.2.100.2,192.2.100.3=61100,61101,61102
192.2.100.4,192.2.100.5=61100,61101,61102,61104
0.0.0.0,192.2.100.122=65515,65516,65513

配置示例

export HCCL_RDMA_QP_PORT_CONFIG_PATH=/home/tmp

使用约束

  • 该环境变量仅支持Atlas A2 训练系列产品的单算子调用方式,不支持静态图模式。
  • 该环境变量的优先级高于环境变量HCCL_RDMA_QPS_PER_CONNECTION,此环境变量配置后,两个rank间通信时使用的QP个数以“MultiQpSrcPort.cfg”文件中配置的源端口号个数为准。

支持的型号

Atlas A2 训练系列产品