文档
注册

使用约束

  • 使用诊断功能时,集群规格建议128机(1024卡)及以下,若服务器数量超过此规格时,需使用ulimit -n命令调整文件描述符上限。
  • 本组件仅支持对整机满卡训练任务提供故障诊断能力,若非满卡训练场景执行诊断可能导致故障根因定位错误或失败。
  • 若采集的主机侧资源信息中包含较多异常数据,可能会导致设备资源分析结果异常,无法诊断实际问题。
  • 请用户同步各训练服务器的系统时间,系统时间不一致可能会导致分析结果不准确。
  • 请用户同步每个训练服务器上Host系统时间与Device的系统时间,系统时间不一致可能会导致分析结果不准确。
  • 用户在使用Ascend-FaultDiag工具命令时,尽量不使用管道命令,可能会影响用户ip的获取、影响日志审计。
  • 支持的故障诊断日志版本配套表如下。
    表1 日志对应软件配套表

    日志文件

    对应软件

    软件版本

    说明

    CANN应用类日志

    CANN

    7.0.RC1及以上

    CANN打印的HOST侧应用类日志和DEVICE侧应用类日志。更多相关信息请参见CANN 日志参考 中的 日志获取 > Ascend EP场景 > 应用类日志章节。

    PyTorch框架训练日志

    昇腾PyTorch1.11.0框架适配插件

    5.0.RC3及以上

    -

    MindSpore框架训练日志

    MindSpore

    2.1.0

    部分故障类型描述中包含对应的MindSpore版本说明,请以实际故障诊断描述为主。

    TensorFlow框架训练日志

    TensorFlow

    1.15

    -

    HOST OS日志

    -

    -

    • 支持检测HOST OS日志“/var/log/message”,包括但不限于CentOSopenEuler的HOST OS日志。不同操作系统日志打印关键字可能存在差异。
    • 建议HOST OS日志大小在512MB以内。

    Device侧日志

    Ascend HDK

    23.0.RC3及以上

    -

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词