使用说明
使用建议
- 使用诊断功能时,因Linux系统最大进程数限制(默认为1024),故集群规格建议≤128台服务器(1024卡)。若服务器数量超过此规格时,需使用ulimit -n命令调整文件描述符上限。
- 用户在使用Ascend FaultDiag工具命令时,尽量不使用管道命令,可能会影响用户IP的获取、影响日志审计。
支持场景
- Ascend FaultDiag工具仅支持对整机满卡训练任务提供故障诊断能力,若非满卡训练场景执行诊断可能导致故障根因定位错误或失败。
- Ascend FaultDiag工具当前仅支持IPv4,不支持使用IPv6。
系统时间说明
- 请用户同步各训练服务器的系统时间,系统时间不一致可能会导致分析结果不准确。
- 请用户同步每个训练服务器上Host系统时间与Device的系统时间,系统时间不一致可能会导致分析结果不准确。
- 若使用容器执行训练任务,请用户同步宿主机与训练容器的系统时间,系统时间不一致可能会导致分析结果不准确。
故障诊断日志版本配套表
父主题: 使用指导