文档
注册

使用约束

  • 使用诊断功能时,集群规格建议128机(1024卡)及以下,若服务器数量超过此规格时,需使用ulimit -n命令调整文件描述符上限。
  • 若采集的主机侧资源信息中包含较多异常数据,可能会导致设备资源分析结果异常,无法诊断实际问题。
  • 请用户同步各训练服务器的系统时间,系统时间不一致可能会导致分析结果不准确。
  • 请用户同步每个训练服务器上Host系统时间与Device的系统时间,系统时间不一致可能会导致分析结果不准确。
  • 用户在使用Ascend-FaultDiag工具命令时,尽量不使用管道命令,可能会影响用户ip的获取、影响日志审计。
  • 支持的故障诊断日志版本配套表。
    表1 日志对应软件配套表

    日志文件

    软件版本与操作系统名称

    昇腾软件版本

    备注

    CANN应用类日志

    -

    6.3.RC1及以上

    -

    PyTorch框架训练日志

    1.11.0

    torch_npu 5.0.RC3及以上

    -

    MindSpore框架训练日志

    2.1.0

    -

    部分故障类型描述中包含对应的软件版本说明,请以实际故障诊断描述为主。

    TensorFlow框架训练日志

    1.15

    -

    -

    HOST OS日志

    CentOS

    -

    • 支持检测的HOST OS日志包括但不限于以上系统,不同操作系统日志打印关键字可能存在差异。
    • 建议日志大小在512MB以内。

    Device侧日志

    -

    23.0.RC1及以上

    -

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词