使用约束
- 使用诊断功能时,集群规格建议128机(1024卡)及以下,若服务器数量超过此规格时,需使用ulimit -n命令调整文件描述符上限。
- 若采集的主机侧资源信息中包含较多异常数据,可能会导致设备资源分析结果异常,无法诊断实际问题。
- 请用户同步各训练服务器的系统时间,系统时间不一致可能会导致分析结果不准确。
- 请用户同步每个训练服务器上Host系统时间与Device的系统时间,系统时间不一致可能会导致分析结果不准确。
- 用户在使用Ascend-FaultDiag工具命令时,尽量不使用管道命令,可能会影响用户ip的获取、影响日志审计。
- 支持的故障诊断日志版本配套表。
表1 日志对应软件配套表 日志文件
软件版本与操作系统名称
昇腾软件版本
备注
CANN应用类日志
-
6.3.RC1及以上
-
PyTorch框架训练日志
1.11.0
torch_npu 5.0.RC3及以上
-
MindSpore框架训练日志
2.1.0
-
部分故障类型描述中包含对应的软件版本说明,请以实际故障诊断描述为主。
TensorFlow框架训练日志
1.15
-
-
HOST OS日志
CentOS
-
- 支持检测的HOST OS日志包括但不限于以上系统,不同操作系统日志打印关键字可能存在差异。
- 建议日志大小在512MB以内。
Device侧日志
-
23.0.RC1及以上
-
父主题: 使用指导