日志采集目录结构
本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。
- Ascend-fd parse输入目录的日志文件大小会影响执行清洗命令的效率,总文件大小应限制在5G以下,文件总数量应不能超过1000000。
- CANN应用类日志的单个文件应限制在20MB以下。
- NPU状态监测指标文件、NPU网口统计监测指标文件、主机侧资源信息文件应限制在512MB以下。
- 用户训练日志大小无限制,会默认只读最后1MB日志。
- process_log、environment_check、device_log位置不受约束,存放在采集目录下任意位置均可。
- 用户若在容器中进行训练,请及时保存日志至宿主机,如用户训练日志、CANN应用类日志。
- 训练前/后NPU网口检查文件、NPU网口统计监测指标文件、NPU状态监测指标文件、主机侧资源信息、主机侧操作系统日志、Device侧日志请在宿主机上采集。
- 用户可将所有日志汇总至同一采集目录下进行清洗,待清洗相关文件目录结构示例如下。
采集目录 |-- messages # 主机侧操作系统日志 |-- rank-0.txt # 训练打屏日志 ... |-- rank-7.txt # 训练打屏日志 |-- process_log # CANN应用侧原始日志,目录名需为process_log |-- device_log # Device侧日志,目录名需为device_log |-- environment_check # NPU网口、状态信息、资源信息 |-- npu_smi_0_details.csv # npu状态监测指标文件 ... |-- npu_smi_7_details.csv # npu状态监测指标文件 |-- npu_0_details.csv # npu网口统计监测指标文件 ... |-- npu_7_details.csv # npu网口统计监测指标文件 |-- npu_info_before/after.txt # 训练开始/结束npu网口 |-- host_metrics_{core_num}.json # 主机资源监测指标文件
各目录中存放的日志文件请参见表1。
表1 日志文件列表 文件类型
日志文件
文件说明
存储目录
CANN应用类日志
plog-{pid}_{time}.log
HOST侧应用类日志。
采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log
device-{pid}_{time}.log
Device侧应用类日志。
采集目录/process_log/debug或run/device-{pid}/device-{pid}_{time}.log
用户训练日志
.*?rank-(\d+).*?.txt
训练打屏日志。
采集目录/rank-id.*?.txt
NPU网口资源信息
npu_info_before.txt
训练前NPU网口检查。
采集目录/environment_check/npu_info_before.txt
npu_info_after.txt
训练后NPU网口检查。
采集目录/environment_check/npu_info_after.txt
npu_smi_{chip}_details.csv
npu状态监测指标文件。
采集目录/environment_check/npu_smi_{npu_id}_details.csv
npu_{chip}_details.csv
npu网口统计监测指标文件。
采集目录/environment_check/npu_{npu_id}_details.csv
主机侧资源信息
host_metrics_{core_num}.json
主机资源监测指标文件。
采集目录/environment_check/host_metrics_{core_num}.json
主机侧操作系统日志
messages.*?
主机操作系统日志文件。
采集目录/messages.*?
Device侧日志
device-os_{time}.log
Device侧Control CPU上的系统类日志。
采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log
event_{time}.log
Device侧Control CPU上的EVENT级别系统日志。
支持Ascend HDK 23.0.3及以上版本:
采集目录/device_log/slog/dev-os-{id}/run/event/event_{time}.log
device-{id}_{time}.log
Device侧非Control CPU上的系统类日志。
Ascend HDK 23.0.RC3版本:
采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log
Ascend HDK 23.0.3及以上版本:
采集目录/device_log/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log
history.log
黑匣子日志。
采集目录/device_log/hisi_logs/device-{id}/history.log
driver.txt
记录模块[driver]的异常信息。
采集目录/device_log/hisi_logs/device-{id}/{time}/bbox/driver.txt
- 用户也可使用对应清洗命令的输入参数,分别输入对应日志目录进行清洗,各参数对应日志文件存储结构如下,清洗命令参数可参见表1。
|-- ${--process_log参数指定路径} |--debug/plog/plog-{pid}_{time}.log |--run/plog/plog-{pid}_{time}.log |--debug/device-*/device-{pid}_{time}.log |--run/device-*/device-{pid}_{time}.log |-- ${--device_log参数指定路径} |--slog/dev-os-*/debug/device-os/device-os_*.log |--slog/dev-os-*/run/device-os/device-os_*.log |--slog/dev-os-*/run/event/event_*.log #仅Ascend HDK 23.0.3及以上版本显示此路径 |--slog/dev-os-*/device-*/device-*_*.log #Ascend HDK 23.0.RC3版本device-*_*.log在此路径下 |--slog/dev-os-*/debug/device-*/device-*_*.log #Ascend HDK 23.0.3及以上版本device-*_*.log在此路径下 |--hisi_logs/device-*/history.log |--hisi_logs/device-*/xxxx/bbox/driver.txt .... |-- ${--env_check参数指定路径} |-- npu_info_before.txt |-- npu_info_after.txt |-- npu_smi_0_details.csv ... |-- npu_smi_0_details.csv |-- npu_0_details.csv ... |-- npu_7_details.csv |-- ${--train_log参数指定路径} |-- rank-0.txt ... |-- rank-7.txt |-- ${--host_log参数指定路径} |-- messages
文件类型
日志文件
文件说明
存储目录
CANN应用类日志
plog-{pid}_{time}.log
HOST侧应用类日志。
- ${--process_log}/debug/plog/plog-{pid}_{time}.log
- ${--process_log}/run/plog/plog-{pid}_{time}.log
device-{pid}_{time}.log
Device侧应用类日志。
- ${--process_log}/debug/device-{pid}/device-{pid}_{time}.log
- ${--process_log}/run/device-{pid}/device-{pid}_{time}.log
用户训练日志
.*?rank-id.*?.txt
训练打屏日志。
${--train_log}/rank-id.*?.txt
NPU网口资源信息
npu_info_before.txt
训练前NPU网口检查。
${--env_check}/npu_info_before.txt
npu_info_after.txt
训练后NPU网口检查。
${--env_check}/npu_info_after.txt
npu_smi_{npu_id}_details.csv
npu状态监测指标文件。
${--env_check}/npu_smi_{npu_id}_details.csv
npu_{npu_id}_details.csv
npu网口统计监测指标文件。
${--env_check}/npu_{npu_id}_details.csv
主机侧资源信息
host_metrics_{core_num}.json
主机资源监测指标文件。
${--env_check}/host_metrics_{core_num}.json
主机侧操作系统日志
messages.*?
主机操作系统日志文件。
${--host_log}/messages.*?
Device侧日志
device-os_{time}.log
Device侧Control CPU上的系统类日志。
${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log
event_{time}.log
Device侧Control CPU上的EVENT级别系统日志。
支持Ascend HDK 23.0.3及以上版本:
${--device_log}/slog/dev-os-{id}/run/event/event_{time}.log
device-id_{time}.log
Device侧非Control CPU上的系统类日志。
Ascend HDK 23.0.RC3版本:
${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log
Ascend HDK 23.0.3及以上版本:
${--device_log}/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log
history.log
黑匣子日志。
${--device_log}/hisi_logs/device-{id}/history.log
driver.txt
记录模块[driver]的异常信息。
${--device_log}/hisi_logs/device-{id}/{time}/bbox/driver.txt