下载
中文
注册

环境变量

加粗显示的环境变量为常用环境变量。

参数名称

参数说明

取值范围

缺省值

TTP_OT

Torch框架强制退出进程时间阈值,在阈值内完成临终等待CheckPoint的保存时间,到时未保存完毕则强制退出进程,单位:s。

[180, 1900]

720

TTP_ADDR

主节点IP地址或域名。

IPv4地址或域名

127.0.0.1

TTP_LOG_PATH

MindIO TFT日志路径。

禁止配置软链接,日志扩展名为*.log,建议日志名中包含日期时间,避免多次训练记录在同一个日志中,造成循环覆写。

推荐在训练启动脚本中按如下方式配置日志路径:

date_time=$(date +%Y-%m-%d-%H_%M_%S)
export TTP_LOG_PATH=logs/ttp_log_${date_time}.log

文件路径

logs/ttp_log.log

TTP_LOG_LEVEL

MindIO TFT日志等级。

  • DEBUG:细节信息,仅当诊断问题时适用。
  • INFO:确认程序按预期运行。
  • WARNING:表明有已经或即将发生的意外。程序仍按预期进行。
  • ERROR:由于严重的问题,程序的某些功能已经不能正常执行。
  • DEBUG
  • INFO
  • WARNING
  • ERROR

INFO

TTP_LOG_MODE

MindIO TFT日志模式。

  • PER_PROC:每个MindIO TFT进程写独立日志,日志命名为{TTP_LOG_PATH}.{pid}
  • ONLY_ONE:所有MindIO TFT进程写一个日志。
  • PER_PROC
  • ONLY_ONE

PER_PROC

MASTER_ADDR

训练主节点IP地址或域名。

IPv4地址或域名

-

MASTER_PORT

训练主节点通信端口,端口可配。

[1024, 65535]

-

TTP_RETRY_TIMES

Processor TCP(Transmission Control Protocol)建链尝试次数。

[1, 300]

10

MINDIO_WAIT_MINDX_TIME

Controller等待MindCluster响应的最大时间,单位:s。

[1, 3600]

30

CONTROLLER_ADDR

Controller进程IP地址或域名。

IPv4地址或域名

127.0.0.1

PROCESSOR_ADDR

Processor向Controller发起建链请求的目标IP地址或域名。

IPv4地址或域名

127.0.0.1

TTP_ACCLINK_CHECK_PERIOD_HOURS

开启TLS认证后,MindIO TFT检查证书有效性的周期,单位:h。

[24, 720]

168

TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS

开启TLS认证后,MindIO TFT检查证书过期日提前告警的时长,单位:天,需满足证书过期提前告警时长不小于巡检周期,保证及时发现证书过期风险并告警。

[7, 180],且需满足TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS * 24 ≥ TTP_ACCLINK_CHECK_PERIOD_HOURS

30

TTP_NORMAL_ACTION_TIME_LIMIT

故障恢复流程中,执行rebuild/repair/rollback回调执行的超时时间,单位:s。

[30, 1900]

180

TTP_SAVE_CKPT_TIME_LIMIT

Processor执行回调函数保存CheckPoint保存时间阈值,单位:s。

阈值内保存未完成,则会被认为超时,可自行修改增加阈值。

[30, 1900]

180

TTP_WAIT_TIMEOUT

MindIO TFT退出等待超时时间,单位:s。

[150, 1900]

300

MINDIO_FOR_MINDSPORE

表示是否启用MindSpore开关,传入True(不区分大小写)或1时,开启MindSpore开关,其他值关闭MindSpore开关。

  • True(不区分大小写)或1:启用MindSpore
  • 其他:关闭MindSpore

False

MINDX_TASK_ID

MindIO ARF特性使用,MindCluster任务ID,由ClusterD配置,无需用户干预。

字符串

-

HSECEASY_PATH

TLS加密功能使用,HSECEASY组件的路径,内容为“{证书配置根目录}/lib”。该环境变量仅在TLS开启场景由MindIO TFT配置,无需用户干预。

文件目录

{证书配置根目录}/lib

TORCH_DIST_INIT_BARRIER

PyTorch环境变量,创建通信组的同步开关,MindIO ARF特性重建通信组时使用。

  • 0:关闭同步
  • 1:启用同步

-

TORCHELASTIC_USE_AGENT_STORE

PyTorch环境变量,控制创建TCP Store Server还是Client,MindIO TFT在临终CheckPoint保存且Torch Agent TCP Store Server连接失败场景下使用。

  • True:创建Client
  • False:创建Server

-