文档
注册
评分
提单
论坛
小AI

HCCL_DESYNC_DEBUG

功能描述

PyTorch训练或在线推理场景下,当使用HCCL作为通信后端时,可通过此环境变量控制是否进行通信超时分析。

  • 0:不开启通信超时分析。
  • 1:开启通信超时分析。

默认值:0。

  • 当前版本,仅打印超时分析结果,不会终止进程。
  • 当前版本该环境变量为试用环境变量,后续版本可能会存在变更。当集群组网规模较大时,若启用此环境变量,可能会出现训练进程异常卡死的情况。

配置示例

export HCCL_DESYNC_DEBUG=1

使用约束

  • PyTorch版本为1.11.0时,此环境变量需要与HCCL_ASYNC_ERROR_HANDLING同时使用,即若HCCL_DESYNC_DEBUG配置为1,HCCL_ASYNC_ERROR_HANDLING需要同步配置为1。
  • 此环境变量仅适用于PyTorch网络,且使用HCCL作为通信后端的场景。

支持的型号

Atlas 训练系列产品

Atlas A2 训练系列产品

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词