下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

使用说明

使用建议

  • 使用诊断功能时,因Linux系统最大进程数限制(默认为1024),故集群规格建议≤128台服务器(1024卡)。若服务器数量超过此规格时,需使用ulimit -n命令调整文件描述符上限。
  • 用户在使用Ascend FaultDiag工具命令时,尽量不使用管道命令,可能会影响用户IP的获取、影响日志审计。

支持的场景

  • Ascend FaultDiag工具仅支持对整机满卡训练及推理任务提供故障诊断能力,若非满卡训练及推理场景执行诊断可能导致故障根因定位错误或失败。
  • Ascend FaultDiag工具当前仅支持IPv4,不支持使用IPv6。

系统时间说明

  • 请用户同步各训练及推理服务器的系统时间,系统时间不一致可能会导致分析结果不准确。
  • 请用户同步每个训练及推理服务器上Host系统时间与Device的系统时间,系统时间不一致可能会导致分析结果不准确。
  • 若使用容器执行训练及推理任务,请用户同步宿主机与训练及推理容器的系统时间,系统时间不一致可能会导致分析结果不准确。

故障诊断日志版本配套表

表1 日志对应软件配套表

日志文件

对应软件

软件版本

说明

CANN应用类日志

CANN

7.0.RC1及以上

CANN打印的HOST侧应用类日志和DEVICE侧应用类日志。更多相关信息请参见《CANN 日志参考》的“查看日志(Ascend EP标准形态)”章节章节。

PyTorch框架训练及推理日志

昇腾PyTorch1.11.0框架适配插件

5.0.RC3及以上

-

MindSpore框架训练日志

MindSpore

2.1.0

部分故障类型描述中包含对应的MindSpore版本说明,请以实际故障诊断描述为主。

TensorFlow框架训练日志

TensorFlow

1.15

-

HOST OS日志

-

-

  • 支持检测HOST OS日志包括但不限于CentOS 7.6、Debian 10.0、EulerOS 2.10、EulerOS 2.12和CTyunOS 22.06的HOST OS日志。不同操作系统日志打印关键字可能存在差异。
  • 建议HOST OS日志大小在512MB以内。

Device侧日志

Ascend HDK

23.0.RC3及以上

-

MindX DL组件日志

devicePlugin、noded

6.0.RC3及以上

-

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词