下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

日志采集目录结构

本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。

  • Ascend-fd parse输入目录的日志文件大小会影响执行清洗命令的效率,总文件大小应限制在5G以下,文件总数量不能超过1000000。
  • CANN应用类日志的单个文件应限制在20MB以下。
  • NPU状态监测指标文件、NPU网口统计监测指标文件、主机侧资源信息文件应限制在512MB以下。
  • 用户训练及推理日志大小无限制,会默认只读最后1MB日志。
  • Host OS系统日志当前支持messages、dmesg、vmcore_dmesg.txt和sysmonitor.log日志,其中单个文件的转储大小上限请限制在512MB以下;dmesg日志取最新的日志,最大100000行。
  • process_log、environment_check、device_log、dl_log位置不受约束,存放在采集目录下任意位置均可。
  • 用户若在容器中进行训练及推理,请及时保存日志至宿主机,如用户训练及推理日志、CANN应用类日志。
  • 训练及推理前或后NPU环境检查文件、NPU网口统计监测指标文件、NPU状态监测指标文件、主机侧资源信息、主机侧操作系统日志和Device侧日志请在宿主机上采集。
  • 用户可将所有日志汇总至同一采集目录下进行清洗,待清洗相关文件目录结构示例如下。
    采集目录
    |-- messages             # 主机侧操作系统日志
    |-- dmesg                # 主机侧内核消息日志
    |-- crash
        |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29)
            |-- vmcore_dmesg.txt     # 系统崩溃时保存的Host侧内核消息日志文件
    |-- sysmonitor.log       # 主机侧系统监日志
    |-- rank-0.txt           # 训练及推理打屏日志
    ...
    |-- rank-7.txt           # 训练及推理打屏日志
    |-- process_log          # CANN应用侧原始日志,目录名需为process_log
    |-- device_log           # Device侧日志,目录名需为device_log
    |-- dl_log               # MindX DL组件日志,目录名需为dl_log
        |-- devicePlugin       # devicePlugin组件日志
        |-- noded              # noded组件日志
    |-- environment_check # NPU网口、状态信息、资源信息
        |-- npu_smi_0_details.csv   # NPU状态监测指标文件
         ...
        |-- npu_smi_7_details.csv   # NPU状态监测指标文件
        |-- npu_0_details.csv       # NPU网口统计监测指标文件
         ...    
        |-- npu_7_details.csv       # NPU网口统计监测指标文件
        |-- npu_info_before/after.txt  # 训练及推理前或后NPU环境检查文件
        |-- host_metrics_{core_num}.json # 主机资源监测指标文件

    各目录中存放的日志文件请参见表1

    表1 日志文件列表

    文件类型

    日志文件

    文件说明

    存储目录

    CANN应用类日志

    plog-{pid}_{time}.log

    Host侧应用类日志。

    采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log

    device-{pid}_{time}.log

    Device侧应用类日志。

    采集目录/process_log/debug或run/device-{id}/device-{pid}_{time}.log

    用户训练及推理日志

    rank-{id}.txt

    rank-{id}.log

    worker-{id}.txt

    worker-{id}.log

    训练及推理打屏日志。

    • 采集目录/rank-{id}.*?.txt
    • 采集目录/rank-{id}.*?.log
    • 采集目录/worker-{id}.*?.log
    • 采集目录/worker-{id}.*?.txt

    NPU网口资源信息

    npu_info_before.txt

    训练及推理前NPU网口检查。

    采集目录/environment_check/npu_info_before.txt

    npu_info_after.txt

    训练及推理后NPU网口检查。

    采集目录/environment_check/npu_info_after.txt

    npu_smi_{npu_id}_details.csv

    NPU状态监测指标文件。

    采集目录/environment_check/npu_smi_{npu_id}_details.csv

    npu_{npu_id}_details.csv

    NPU网口统计监测指标文件。

    采集目录/environment_check/npu_{npu_id}_details.csv

    主机侧资源信息

    host_metrics_{core_num}.json

    主机资源监测指标文件。

    采集目录/environment_check/host_metrics_{core_num}.json

    主机侧日志

    dmesg

    主机侧内核消息类文件。

    采集目录/dmesg

    sysmonitor.log

    主机侧系统监类文件。

    采集目录/sysmonitor.log

    messages-*?

    主机侧操作系统日志文件。

    采集目录/messages-*?

    vmcore_dmesg.txt

    系统崩溃时保存的Host侧内核消息日志文件。

    采集目录/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt

    Device侧日志

    device-os_{time}.log

    Device侧Control CPU上的系统类日志。

    采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log

    event_{time}.log

    Device侧Control CPU上的EVENT级别系统日志。

    支持Ascend HDK 23.0.3及以上版本:

    采集目录/device_log/slog/dev-os-{id}/run/event/event_{time}.log

    device-{id}_{time}.log

    Device侧非Control CPU上的系统类日志。

    Ascend HDK 23.0.RC3版本:

    采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log

    Ascend HDK 23.0.3及以上版本:

    采集目录/device_log/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log

    history.log

    黑匣子日志。

    采集目录/device_log/hisi_logs/device-{id}/history.log

    MindX DL组件日志

    devicePlugin*.log

    灵衢总线设备日志

    采集目录/dl_log/devicePlugin/devicePlugin*.log

    noded*.log

    AI服务器日志

    采集目录/dl_log/noded/noded*.log

  • 用户也可使用对应清洗命令的输入参数,分别输入对应日志目录进行清洗,各参数对应日志文件存储结构如下,清洗命令参数可参见表1
    |-- ${--process_log参数指定路径}
            |--debug/plog/plog-{pid}_{time}.log
            |--run/plog/plog-{pid}_{time}.log
            |--debug/device-*/device-{pid}_{time}.log
            |--run/device-*/device-{pid}_{time}.log
    
    |-- ${--device_log参数指定路径} 
            |--slog/dev-os-*/debug/device-os/device-os_*.log
            |--slog/dev-os-*/run/device-os/device-os_*.log
            |--slog/dev-os-*/run/event/event_*.log      #仅Ascend HDK 23.0.3及以上版本显示此路径
            |--slog/dev-os-*/device-*/device-*_*.log    #Ascend HDK 23.0.RC3版本device-*_*.log在此路径下
            |--slog/dev-os-*/debug/device-*/device-*_*.log   #Ascend HDK 23.0.3及以上版本device-*_*.log在此路径下
            |--hisi_logs/device-*/history.log
            ....
    
    |-- ${--env_check参数指定路径} 
           |-- npu_info_before.txt 
           |-- npu_info_after.txt 
           |-- npu_smi_0_details.csv
            ...
           |-- npu_smi_0_details.csv
           |-- npu_0_details.csv
           ...
           |-- npu_7_details.csv
    
    |-- ${--train_log参数指定路径}  
           |-- rank-0.txt      
           ...
           |-- rank-7.txt  
     
    |-- ${--host_log参数指定路径}    
           |-- messages
           |-- crash
                  |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29)
                         |-- vmcore_dmesg.txt
           |-- dmesg 
           |-- sysmonitor.log   
    
    |-- ${--dl_log参数指定路径} 
           |--devicePlugin/devicePlugin*.log
           |--noded/noded*.log

    文件类型

    日志文件

    文件说明

    存储目录

    CANN应用类日志

    plog-{pid}_{time}.log

    Host侧应用类日志。

    • ${--process_log}/debug/plog/plog-{pid}_{time}.log
    • ${--process_log}/run/plog/plog-{pid}_{time}.log

    device-{pid}_{time}.log

    Device侧应用类日志。

    • ${--process_log}/debug/device-{id}/device-{pid}_{time}.log
    • ${--process_log}/run/device-{id}/device-{pid}_{time}.log

    用户训练及推理日志

    rank-{id}.txt

    rank-{id}.log

    worker-{id}.txt

    worker-{id}.log

    训练及推理打屏日志。

    • ${--train_log}/rank-id.*?.txt
    • ${--train_log}/rank-id.*?.log
    • ${--train_log}/worker-id.*?.log
    • ${--train_log}/worker-id.*?.txt

    NPU网口资源信息

    npu_info_before.txt

    训练前NPU网口检查。

    ${--env_check}/npu_info_before.txt

    npu_info_after.txt

    训练后NPU网口检查。

    ${--env_check}/npu_info_after.txt

    npu_smi_{npu_id}_details.csv

    NPU状态监测指标文件。

    ${--env_check}/npu_smi_{npu_id}_details.csv

    npu_{npu_id}_details.csv

    NPU网口统计监测指标文件。

    ${--env_check}/npu_{npu_id}_details.csv

    主机侧资源信息

    host_metrics_{core_num}.json

    主机资源监测指标文件。

    ${--env_check}/host_metrics_{core_num}.json

    主机侧日志

    messages-*?

    主机侧操作系统日志文件。

    ${--host_log}/messages-*?

    dmesg

    主机侧内核消息类文件。

    ${--host_log}/dmesg

    vmcore-dmesg.txt

    系统崩溃时保存的Host侧内核消息日志文件。

    ${--host_log}/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt

    sysmonitor.log

    主机侧系统监类文件。

    ${--host_log}/sysmonitor.log

    Device侧日志

    device-os_{time}.log

    Device侧Control CPU上的系统类日志。

    ${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log

    event_{time}.log

    Device侧Control CPU上的EVENT级别系统日志。

    支持Ascend HDK 23.0.3及以上版本:

    ${--device_log}/slog/dev-os-{id}/run/event/event_{time}.log

    device-id_{time}.log

    Device侧非Control CPU上的系统类日志。

    Ascend HDK 23.0.RC3版本:

    ${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log

    Ascend HDK 23.0.3及以上版本:

    ${--device_log}/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log

    history.log

    黑匣子日志。

    ${--device_log}/hisi_logs/device-{id}/history.log

    MindX DL组件日志

    devicePlugin*.log

    灵衢总线日志

    ${--dl_log}/devicePlugin/devicePlugin*.log

    noded*.log

    AI服务器日志

    ${--dl_log}/noded/noded*.log

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词