文档
注册
评分
提单
论坛
小AI

日志采集目录结构

本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。

  • Ascend-fd parse输入目录的日志文件大小会影响执行清洗命令的效率,总文件大小应限制在5G以下,文件总数量应不能超过1000000。
  • CANN应用类日志的单个文件应限制在20MB以下。
  • NPU状态监测指标文件、NPU网口统计监测指标文件、主机侧资源信息文件应限制在512MB以下。
  • 用户训练日志大小无限制,会默认只读最后1MB日志。
  • process_log、environment_check、device_log位置不受约束,存放在采集目录下任意位置均可。
  • 用户若在容器中进行训练,请及时保存日志至宿主机,如用户训练日志、CANN应用类日志。
  • 训练前/后NPU网口检查文件、NPU网口统计监测指标文件、NPU状态监测指标文件、主机侧资源信息、主机侧操作系统日志、Device侧日志请在宿主机上采集。
  • 用户可将所有日志汇总至同一采集目录下进行清洗,待清洗相关文件目录结构示例如下。
    采集目录
    |-- messages        # 主机侧操作系统日志
    |-- rank-0.txt      # 训练打屏日志
    ...
    |-- rank-7.txt      # 训练打屏日志
    |-- process_log          # CANN应用侧原始日志,目录名需为process_log
    |-- device_log           # Device侧日志,目录名需为device_log
    |-- environment_check # NPU网口、状态信息、资源信息
        |-- npu_smi_0_details.csv   # npu状态监测指标文件
         ...
        |-- npu_smi_7_details.csv   # npu状态监测指标文件
        |-- npu_0_details.csv       # npu网口统计监测指标文件
         ...    
        |-- npu_7_details.csv       # npu网口统计监测指标文件
        |-- npu_info_before/after.txt  # 训练开始/结束npu网口
        |-- host_metrics_{core_num}.json # 主机资源监测指标文件

    各目录中存放的日志文件请参见表1

    表1 日志文件列表

    文件类型

    日志文件

    文件说明

    存储目录

    CANN应用类日志

    plog-{pid}_{time}.log

    HOST侧应用类日志。

    采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log

    device-{pid}_{time}.log

    Device侧应用类日志。

    采集目录/process_log/debug或run/device-{pid}/device-{pid}_{time}.log

    用户训练日志

    .*?rank-(\d+).*?.txt

    训练打屏日志。

    采集目录/rank-id.*?.txt

    NPU网口资源信息

    npu_info_before.txt

    训练前NPU网口检查。

    采集目录/environment_check/npu_info_before.txt

    npu_info_after.txt

    训练后NPU网口检查。

    采集目录/environment_check/npu_info_after.txt

    npu_smi_{chip}_details.csv

    npu状态监测指标文件。

    采集目录/environment_check/npu_smi_{npu_id}_details.csv

    npu_{chip}_details.csv

    npu网口统计监测指标文件。

    采集目录/environment_check/npu_{npu_id}_details.csv

    主机侧资源信息

    host_metrics_{core_num}.json

    主机资源监测指标文件。

    采集目录/environment_check/host_metrics_{core_num}.json

    主机侧操作系统日志

    messages.*?

    主机操作系统日志文件。

    采集目录/messages.*?

    Device侧日志

    device-os_{time}.log

    Device侧Control CPU上的系统类日志。

    采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log

    device-{id}_{time}.log

    Device侧非Control CPU上的系统类日志。

    采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log

    history.log

    黑匣子日志。

    采集目录/device_log/hisi_logs/device-{id}/history.log

    driver.txt

    记录模块[driver]的异常信息。

    采集目录/device_log/hisi_logs/device-{id}/{time}/bbox/driver.txt

  • 用户也可使用对应清洗命令的输入参数,分别输入对应日志目录进行清洗,各参数对应日志文件存储结构如下,清洗命令参数可参见表1
    |-- ${--process_log参数指定路径}
            |--debug/plog/plog-{pid}_{time}.log
            |--run/plog/plog-{pid}_{time}.log
            |--debug/device-*/device-{pid}_{time}.log
            |--run/device-*/device-{pid}_{time}.log
    
    |-- ${--device_log参数指定路径} 
    	|--slog/dev-os-*/debug/device-os/device-os_*.log
    	|--slog/dev-os-*/run/device-os/device-os_*.log
            |--slog/dev-os-*/device-*/device-*_*.log
            |--hisi_logs/device-*/history.log
            |--hisi_logs/device-*/xxxx/bbox/driver.txt
            ....
    
    |-- ${--env_check参数指定路径} 
           |-- npu_info_before.txt 
           |-- npu_info_after.txt 
           |-- npu_smi_0_details.csv
            ...
           |-- npu_smi_0_details.csv
           |-- npu_0_details.csv
           ...
           |-- npu_7_details.csv
    
    |-- ${--train_log参数指定路径}  
           |-- rank-0.txt      
           ...
           |-- rank-7.txt  
     
    |-- ${--host_log参数指定路径}   	
           |-- messages

    文件类型

    日志文件

    文件说明

    存储目录

    CANN应用类日志

    plog-{pid}_{time}.log

    HOST侧应用类日志。

    • ${--process_log}/debug/plog/plog-{pid}_{time}.log
    • ${--process_log}/run/plog/plog-{pid}_{time}.log

    device-{pid}_{time}.log

    Device侧应用类日志。

    • ${--process_log}/debug/device-{pid}/device-{pid}_{time}.log
    • ${--process_log}/run/device-{pid}/device-{pid}_{time}.log

    用户训练日志

    .*?rank-id.*?.txt

    训练打屏日志。

    ${--train_log}/rank-id.*?.txt

    NPU网口资源信息

    npu_info_before.txt

    训练前NPU网口检查。

    ${--env_check}/npu_info_before.txt

    npu_info_after.txt

    训练后NPU网口检查。

    ${--env_check}/npu_info_after.txt

    npu_smi_{npu_id}_details.csv

    npu状态监测指标文件。

    ${--env_check}/npu_smi_{npu_id}_details.csv

    npu_{npu_id}_details.csv

    npu网口统计监测指标文件。

    ${--env_check}/npu_{npu_id}_details.csv

    主机侧资源信息

    host_metrics_{core_num}.json

    主机资源监测指标文件。

    ${--env_check}/host_metrics_{core_num}.json

    主机侧操作系统日志

    messages.*?

    主机操作系统日志文件。

    ${--host_log}/messages.*?

    Device侧日志

    device-os_{time}.log

    Device侧Control CPU上的系统类日志。

    ${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log

    device-id_{time}.log

    Device侧非Control CPU上的系统类日志。

    ${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log

    history.log

    黑匣子日志。

    ${--device_log}/hisi_logs/device-{id}/history.log

    driver.txt

    记录模块[driver]的异常信息。

    ${--device_log}/hisi_logs/device-{id}/{time}/bbox/driver.txt

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词