RANK_TABLE_FILE
功能描述
此环境变量用于控制是否通过ranktable file进行集合通信域建链。
- 未配置时,通过默认的协商流程进行集合通信域建链。
- 配置且文件全路径有效时,通过ranktable file进行集合通信域建链。
此环境变量默认为未配置。
配置示例
启用ranktable file方式建链示例:
- 配置的文件路径不存在时,会通过默认的协商流程进行集合通信域建链。
- 配置的文件路径存在,但配置信息有误时,不会通过默认的协商流程进行集合通信域建链,而是在实际通信时会进行相应的报错。
- 配置的文件路径不能为软链接,且存在读取权限。
- 配置的文件需要为json格式。
export RANK_TABLE_FILE=/home/ranktable.json
关闭ranktable file方式建链示例:
unset RANK_TABLE_FILE
使用约束
此环境变量仅适用于PyTorch网络,且使用分布式集合通信的场景。
支持的型号
Atlas 训练系列产品
Atlas A2 训练系列产品