NPU网口统计监测指标文件
文件说明
- 文件说明:通过hccn_tool工具进行采集,监测NPU网口收发报文统计信息等指标。
- 命名约束:npu_(\d+)_details.csv。如npu_0_details.csv,其中0表示NPU卡的device id。
- 存放路径约束:
- 采集目录/environment_check/}
- ${--env_check参数指定路径}/
- 详细说明请参考日志采集目录结构

设备上的每张NPU卡都需要创建对应的NPU网口统计监测指标文件。
采集方式说明
在训练任务期间,使用hccn_tool工具,每15秒间隔查询一次NPU网口统计信息,命令参考如下。
/usr/local/Ascend/driver/tools/hccn_tool -i ${device_id} -stat -g
记录所有指标及取值,保存为csv格式文件,格式如表1所示。
命令回显如下:
packet statistics: mac_tx_mac_pause_num:0 mac_rx_mac_pause_num:0 mac_tx_pfc_pkt_num:0 ... roce_qp_status_err_num:0 nic_tx_all_pkg_num:122404 nic_tx_all_oct_num:16921741 nic_rx_all_pkg_num:6414803 nic_rx_all_oct_num:482237805
将每次回显中的参数名作为表头,参数值作为值保存为csv格式文件。
父主题: 训练中采集