环境变量

加粗显示的环境变量为常用环境变量。
参数名称 |
参数说明 |
取值范围 |
缺省值 |
---|---|---|---|
TTP_OT |
Torch框架强制退出进程时间阈值,在阈值内完成临终等待CheckPoint的保存时间,到时未保存完毕则强制退出进程,单位:s。 |
[180, 1900] |
720 |
TTP_ADDR |
主节点IP地址或域名。 |
IPv4地址或域名 |
127.0.0.1 |
TTP_LOG_PATH |
MindIO TFT日志路径。 禁止配置软链接,日志扩展名为*.log,建议日志名中包含日期时间,避免多次训练记录在同一个日志中,造成循环覆写。 推荐在训练启动脚本中按如下方式配置日志路径: date_time=$(date +%Y-%m-%d-%H_%M_%S) export TTP_LOG_PATH=logs/ttp_log_${date_time}.log |
文件路径 |
logs/ttp_log.log |
TTP_LOG_LEVEL |
MindIO TFT日志等级。
|
|
INFO |
TTP_LOG_MODE |
MindIO TFT日志模式。
|
|
PER_PROC |
MASTER_ADDR |
训练主节点IP地址或域名。 |
IPv4地址或域名 |
- |
MASTER_PORT |
训练主节点通信端口,端口可配。 |
[1024, 65535] |
- |
TTP_RETRY_TIMES |
Processor TCP(Transmission Control Protocol)建链尝试次数。 |
[1, 300] |
10 |
MINDIO_WAIT_MINDX_TIME |
Controller等待MindCluster响应的最大时间,单位:s。 |
[1, 3600] |
30 |
CONTROLLER_ADDR |
Controller进程IP地址或域名。 |
IPv4地址或域名 |
127.0.0.1 |
PROCESSOR_ADDR |
Processor向Controller发起建链请求的目标IP地址或域名。 |
IPv4地址或域名 |
127.0.0.1 |
TTP_ACCLINK_CHECK_PERIOD_HOURS |
开启TLS认证后,MindIO TFT检查证书有效性的周期,单位:h。 |
[24, 720] |
168 |
TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS |
开启TLS认证后,MindIO TFT检查证书过期日提前告警的时长,单位:天,需满足证书过期提前告警时长不小于巡检周期,保证及时发现证书过期风险并告警。 |
[7, 180],且需满足TTP_ACCLINK_CERT_CHECK_AHEAD_DAYS * 24 ≥ TTP_ACCLINK_CHECK_PERIOD_HOURS |
30 |
TTP_NORMAL_ACTION_TIME_LIMIT |
故障恢复流程中,执行rebuild/repair/rollback回调执行的超时时间,单位:s。 |
[30, 1900] |
180 |
TTP_SAVE_CKPT_TIME_LIMIT |
Processor执行回调函数保存CheckPoint保存时间阈值,单位:s。 阈值内保存未完成,则会被认为超时,可自行修改增加阈值。 |
[30, 1900] |
180 |
TTP_WAIT_TIMEOUT |
MindIO TFT退出等待超时时间,单位:s。 |
[150, 1900] |
300 |
MINDIO_FOR_MINDSPORE |
表示是否启用MindSpore开关,传入True(不区分大小写)或1时,开启MindSpore开关,其他值关闭MindSpore开关。 |
|
False |
MINDX_TASK_ID |
MindIO ARF特性使用,MindCluster任务ID,由ClusterD配置,无需用户干预。 |
字符串 |
- |
HSECEASY_PATH |
TLS加密功能使用,HSECEASY组件的路径,内容为“{证书配置根目录}/lib”。该环境变量仅在TLS开启场景由MindIO TFT配置,无需用户干预。 |
文件目录 |
{证书配置根目录}/lib |
TORCH_DIST_INIT_BARRIER |
PyTorch环境变量,创建通信组的同步开关,MindIO ARF特性重建通信组时使用。 |
|
- |
TORCHELASTIC_USE_AGENT_STORE |
PyTorch环境变量,控制创建TCP Store Server还是Client,MindIO TFT在临终CheckPoint保存且Torch Agent TCP Store Server连接失败场景下使用。 |
|
- |