下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

RANK_TABLE_FILE

功能描述

此环境变量用于控制是否通过ranktable file进行集合通信域建链。

  • 未配置时,通过默认的协商流程进行集合通信域建链。
  • 配置且文件全路径有效时,通过ranktable file进行集合通信域建链。

此环境变量默认为未配置。

配置RANK_TABLE_FILE场景下,执行模型分布式训练时如果出现“RuntimeError: The Inner Error ...”的报错,建议将HCCL_CONNECT_TIMEOUT的超时时间适当增大,避免ranktable场景下无协商导致的建链超时问题,具体请参考《Ascend Extension for PyTorch 常见问题》的“在进行模型分布式训练时遇到报错“RuntimeError: The Inner Error ...””章节。

配置示例

启用ranktable file方式建链示例:

  • 配置的文件路径不存在时,会通过默认的协商流程进行集合通信域建链。
  • 配置的文件路径存在,但配置信息有误时,不会通过默认的协商流程进行集合通信域建链,而是在实际通信时会进行相应的报错。
  • 配置的文件路径不能为软链接,且存在读取权限。
  • 配置的文件需要为json格式,具体可参考集合通信用户指南的“通信功能开发 > 集群信息配置 > ranktable文件配置资源信息”章节。
export RANK_TABLE_FILE=/home/ranktable.json

关闭ranktable file方式建链示例:

unset RANK_TABLE_FILE

使用约束

此环境变量仅适用于PyTorch网络,且使用分布式集合通信的场景。

支持的型号

Atlas 训练系列产品

Atlas A2 训练系列产品

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词