使用约束
- 使用诊断功能时,集群规格建议128机(1024卡)及以下,若服务器数量超过此规格时,需使用ulimit -n命令调整文件描述符上限。
- 本组件仅支持对整机满卡训练任务提供故障诊断能力,若非满卡训练场景执行诊断可能导致故障根因定位错误或失败。
- 若采集的主机侧资源信息中包含较多异常数据,可能会导致设备资源分析结果异常,无法诊断实际问题。
- 请用户同步各训练服务器的系统时间,系统时间不一致可能会导致分析结果不准确。
- 请用户同步每个训练服务器上Host系统时间与Device的系统时间,系统时间不一致可能会导致分析结果不准确。
- 用户在使用Ascend FaultDiag工具命令时,尽量不使用管道命令,可能会影响用户ip的获取、影响日志审计。
- 支持的故障诊断日志版本配套表如下。
表1 日志对应软件配套表 日志文件
对应软件
软件版本
说明
CANN应用类日志
CANN
7.0.RC1及以上
PyTorch框架训练日志
昇腾PyTorch1.11.0框架适配插件
5.0.RC3及以上
-
MindSpore框架训练日志
MindSpore
2.1.0
部分故障类型描述中包含对应的MindSpore版本说明,请以实际故障诊断描述为主。
TensorFlow框架训练日志
TensorFlow
1.15
-
HOST OS日志
-
-
- 支持检测HOST OS日志“/var/log/message”,包括但不限于CentOS和openEuler的HOST OS日志。不同操作系统日志打印关键字可能存在差异。
- 建议HOST OS日志大小在512MB以内。
Device侧日志
Ascend HDK
23.0.RC3及以上
-
父主题: 使用指导