日志采集目录结构
本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。
- Ascend-fd parse输入目录的日志文件大小会影响执行清洗命令的效率,总文件大小应限制在5G以下,文件总数量不能超过1000000。
- CANN应用类日志的单个文件应限制在20MB以下。
- NPU状态监测指标文件、NPU网口统计监测指标文件、主机侧资源信息文件应限制在512MB以下。
- 用户训练及推理日志大小无限制,会默认只读最后1MB日志。
- Host OS系统日志当前支持messages、dmesg、vmcore_dmesg.txt和sysmonitor.log日志,其中单个文件的转储大小上限请限制在512MB以下;dmesg日志取最新的日志,最大100000行。
- process_log、environment_check、device_log、dl_log位置不受约束,存放在采集目录下任意位置均可。
- 用户若在容器中进行训练及推理,请及时保存日志至宿主机,如用户训练及推理日志、CANN应用类日志。
- 训练及推理前或后NPU环境检查文件、NPU网口统计监测指标文件、NPU状态监测指标文件、主机侧资源信息、主机侧操作系统日志和Device侧日志请在宿主机上采集。
- 用户可将所有日志汇总至同一采集目录下进行清洗,待清洗相关文件目录结构示例如下。
采集目录 |-- messages # 主机侧操作系统日志 |-- dmesg # 主机侧内核消息日志 |-- crash |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29) |-- vmcore_dmesg.txt # 系统崩溃时保存的Host侧内核消息日志文件 |-- sysmonitor.log # 主机侧系统监测日志 |-- rank-0.txt # 训练及推理打屏日志 ... |-- rank-7.txt # 训练及推理打屏日志 |-- process_log # CANN应用侧原始日志,目录名需为process_log |-- device_log # Device侧日志,目录名需为device_log |-- dl_log # MindX DL组件日志,目录名需为dl_log |-- devicePlugin # devicePlugin组件日志 |-- noded # noded组件日志 |-- environment_check # NPU网口、状态信息、资源信息 |-- npu_smi_0_details.csv # NPU状态监测指标文件 ... |-- npu_smi_7_details.csv # NPU状态监测指标文件 |-- npu_0_details.csv # NPU网口统计监测指标文件 ... |-- npu_7_details.csv # NPU网口统计监测指标文件 |-- npu_info_before/after.txt # 训练及推理前或后NPU环境检查文件 |-- host_metrics_{core_num}.json # 主机资源监测指标文件
各目录中存放的日志文件请参见表1。
表1 日志文件列表 文件类型
日志文件
文件说明
存储目录
CANN应用类日志
plog-{pid}_{time}.log
Host侧应用类日志。
采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log
device-{pid}_{time}.log
Device侧应用类日志。
采集目录/process_log/debug或run/device-{id}/device-{pid}_{time}.log
用户训练及推理日志
rank-{id}.txt
rank-{id}.log
worker-{id}.txt
worker-{id}.log
训练及推理打屏日志。
- 采集目录/rank-{id}.*?.txt
- 采集目录/rank-{id}.*?.log
- 采集目录/worker-{id}.*?.log
- 采集目录/worker-{id}.*?.txt
NPU网口资源信息
npu_info_before.txt
训练及推理前NPU网口检查。
采集目录/environment_check/npu_info_before.txt
npu_info_after.txt
训练及推理后NPU网口检查。
采集目录/environment_check/npu_info_after.txt
npu_smi_{npu_id}_details.csv
NPU状态监测指标文件。
采集目录/environment_check/npu_smi_{npu_id}_details.csv
npu_{npu_id}_details.csv
NPU网口统计监测指标文件。
采集目录/environment_check/npu_{npu_id}_details.csv
主机侧资源信息
host_metrics_{core_num}.json
主机资源监测指标文件。
采集目录/environment_check/host_metrics_{core_num}.json
主机侧日志
dmesg
主机侧内核消息类文件。
采集目录/dmesg
sysmonitor.log
主机侧系统监测类文件。
采集目录/sysmonitor.log
messages-*?
主机侧操作系统日志文件。
采集目录/messages-*?
vmcore_dmesg.txt
系统崩溃时保存的Host侧内核消息日志文件。
采集目录/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt
Device侧日志
device-os_{time}.log
Device侧Control CPU上的系统类日志。
采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log
event_{time}.log
Device侧Control CPU上的EVENT级别系统日志。
支持Ascend HDK 23.0.3及以上版本:
采集目录/device_log/slog/dev-os-{id}/run/event/event_{time}.log
device-{id}_{time}.log
Device侧非Control CPU上的系统类日志。
Ascend HDK 23.0.RC3版本:
采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log
Ascend HDK 23.0.3及以上版本:
采集目录/device_log/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log
history.log
黑匣子日志。
采集目录/device_log/hisi_logs/device-{id}/history.log
MindX DL组件日志
devicePlugin*.log
灵衢总线设备日志
采集目录/dl_log/devicePlugin/devicePlugin*.log
noded*.log
AI服务器日志
采集目录/dl_log/noded/noded*.log
- 用户也可使用对应清洗命令的输入参数,分别输入对应日志目录进行清洗,各参数对应日志文件存储结构如下,清洗命令参数可参见表1。
|-- ${--process_log参数指定路径} |--debug/plog/plog-{pid}_{time}.log |--run/plog/plog-{pid}_{time}.log |--debug/device-*/device-{pid}_{time}.log |--run/device-*/device-{pid}_{time}.log |-- ${--device_log参数指定路径} |--slog/dev-os-*/debug/device-os/device-os_*.log |--slog/dev-os-*/run/device-os/device-os_*.log |--slog/dev-os-*/run/event/event_*.log #仅Ascend HDK 23.0.3及以上版本显示此路径 |--slog/dev-os-*/device-*/device-*_*.log #Ascend HDK 23.0.RC3版本device-*_*.log在此路径下 |--slog/dev-os-*/debug/device-*/device-*_*.log #Ascend HDK 23.0.3及以上版本device-*_*.log在此路径下 |--hisi_logs/device-*/history.log .... |-- ${--env_check参数指定路径} |-- npu_info_before.txt |-- npu_info_after.txt |-- npu_smi_0_details.csv ... |-- npu_smi_0_details.csv |-- npu_0_details.csv ... |-- npu_7_details.csv |-- ${--train_log参数指定路径} |-- rank-0.txt ... |-- rank-7.txt |-- ${--host_log参数指定路径} |-- messages |-- crash |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29) |-- vmcore_dmesg.txt |-- dmesg |-- sysmonitor.log |-- ${--dl_log参数指定路径} |--devicePlugin/devicePlugin*.log |--noded/noded*.log
文件类型
日志文件
文件说明
存储目录
CANN应用类日志
plog-{pid}_{time}.log
Host侧应用类日志。
- ${--process_log}/debug/plog/plog-{pid}_{time}.log
- ${--process_log}/run/plog/plog-{pid}_{time}.log
device-{pid}_{time}.log
Device侧应用类日志。
- ${--process_log}/debug/device-{id}/device-{pid}_{time}.log
- ${--process_log}/run/device-{id}/device-{pid}_{time}.log
用户训练及推理日志
rank-{id}.txt
rank-{id}.log
worker-{id}.txt
worker-{id}.log
训练及推理打屏日志。
- ${--train_log}/rank-id.*?.txt
- ${--train_log}/rank-id.*?.log
- ${--train_log}/worker-id.*?.log
- ${--train_log}/worker-id.*?.txt
NPU网口资源信息
npu_info_before.txt
训练前NPU网口检查。
${--env_check}/npu_info_before.txt
npu_info_after.txt
训练后NPU网口检查。
${--env_check}/npu_info_after.txt
npu_smi_{npu_id}_details.csv
NPU状态监测指标文件。
${--env_check}/npu_smi_{npu_id}_details.csv
npu_{npu_id}_details.csv
NPU网口统计监测指标文件。
${--env_check}/npu_{npu_id}_details.csv
主机侧资源信息
host_metrics_{core_num}.json
主机资源监测指标文件。
${--env_check}/host_metrics_{core_num}.json
主机侧日志
messages-*?
主机侧操作系统日志文件。
${--host_log}/messages-*?
dmesg
主机侧内核消息类文件。
${--host_log}/dmesg
vmcore-dmesg.txt
系统崩溃时保存的Host侧内核消息日志文件。
${--host_log}/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt
sysmonitor.log
主机侧系统监测类文件。
${--host_log}/sysmonitor.log
Device侧日志
device-os_{time}.log
Device侧Control CPU上的系统类日志。
${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log
event_{time}.log
Device侧Control CPU上的EVENT级别系统日志。
支持Ascend HDK 23.0.3及以上版本:
${--device_log}/slog/dev-os-{id}/run/event/event_{time}.log
device-id_{time}.log
Device侧非Control CPU上的系统类日志。
Ascend HDK 23.0.RC3版本:
${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log
Ascend HDK 23.0.3及以上版本:
${--device_log}/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log
history.log
黑匣子日志。
${--device_log}/hisi_logs/device-{id}/history.log
MindX DL组件日志
devicePlugin*.log
灵衢总线日志
${--dl_log}/devicePlugin/devicePlugin*.log
noded*.log
AI服务器日志
${--dl_log}/noded/noded*.log