RANK_ID
功能描述
TensorFlow分布式训练或推理场景下,通过此环境变量指定当前进程在集合通信进程组中对应的rank标识。
针对Atlas 训练系列产品,当ranktable文件使用模板一时,和rank_id字段保持一致;当ranktable文件使用模板二时,和pod_name字段保持一致。
针对Atlas A2 训练系列产品,和ranktable配置文件中的rank_id字段保持一致,关于ranktable配置文件的说明可参见准备ranktable资源配置文件。
配置示例
export RANK_ID=0
使用约束
无
支持的型号
Atlas 训练系列产品
Atlas 300I Duo 推理卡
Atlas A2 训练系列产品
父主题: 资源信息配置