采集昇腾AI处理器系统数据

命令示例

登录Ascend-cann-toolkit开发套件包所在环境,执行以下命令采集性能数据。命令示例如下:

msprof --output=/home/projects/output --sys-devices=<ID> --sys-period=<period> --ai-core=on --sys-hardware-mem=on --sys-cpu-profiling=on --sys-profiling=on --sys-pid-profiling=on --dvpp-profiling=on

采集昇腾AI处理器系统数据时,不指定--application参数,表示仅采集昇腾AI处理器系统数据,此时--output、--sys-period、--sys-devices参数必选;若同时指定--application参数及昇腾AI处理器系统数据参数,此时--sys-period--sys-devices参数不生效。

  • Ascend EP场景下,使用msprof命令行方式采集整网推理Profiling数据时,如果通过配置--llc-profiling--sys-cpu-profiling--sys-profiling--sys-pid-profiling采集项采集相应数据,采集完成后,除--sys-cpu-profiling采集项仅生成TS CPU数据外,其余采集项均不会生成数据;但在不配置--application参数时,配置上述几个采集项均会有数据生成。
  • 对于Atlas A2训练系列产品,--instr-profiling开关与--ascendcl、--model-execution、--runtime-api、--hccl、--task-time、--aicpu、--ai-core、--aic-mode、--aic-freq、--aic-metrics、--l2互斥,无法同时执行。

参数说明

表1 参数说明

参数

描述

支持的型号

性能数据文件

--sys-period

系统的采样时长,取值范围大于0,上限为30*24*3600,单位s。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--sys-devices

设备ID。可以为all或多个设备ID(以逗号分隔)。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--ai-core

控制AI Core、AI Vector Core数据采集的开关,可选on或off,默认值为on。

  • Atlas 200/300/500 推理产品:控制AI Core采集
  • Atlas 200/500 A2推理产品:控制AI Core和AI Vector Core采集
  • Atlas 推理系列产品(Ascend 310P处理器):控制AI Core采集
  • Atlas 训练系列产品:控制AI Core采集
  • Atlas A2训练系列产品:控制AI Core和AI Vector Core采集

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--aic-mode

AI Core、AI Vector Core硬件的采集类型,可选值task-based或sample-based。该参数配置前提是ai-core参数设置为on。

task-based是以task为粒度进行性能数据采集,sample-based是以固定的时间周期进行性能数据采集。

采集昇腾AI处理器系统数据时建议使用sample-based,如果不配置默认为sample-based。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

msprof_*.json中的AI Core Utilization层级和ai_core_utilization_*.csv文件

ai_vector_core_utilization_*.csv

以上文件仅--aic-mode=sample-based时生成

--aic-freq

sample-based场景下的采样频率,默认值100,范围1~100,单位hz。该参数配置前提是ai-core参数设置为on。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--aic-metrics

AI Core、AI Vector Core性能指标采集项。该参数配置前提是ai-core参数设置为on。

取值包括:

  • Atlas 200/300/500 推理产品:ArithmeticUtilization、PipeUtilization(默认值)、Memory、MemoryL0、MemoryUB、ResourceConflictRatio
  • Atlas 200/500 A2推理产品:ArithmeticUtilization、PipeUtilization、Memory、MemoryL0、MemoryUB、ResourceConflictRatio、L2Cache、PipelineExecuteUtilization(默认值)
  • Atlas 推理系列产品(Ascend 310P处理器):ArithmeticUtilization、PipeUtilization(默认值)、Memory、MemoryL0、MemoryUB、ResourceConflictRatio
  • Atlas 训练系列产品:ArithmeticUtilization、PipeUtilization(默认值)、Memory、MemoryL0、MemoryUB、ResourceConflictRatio
  • Atlas A2训练系列产品:ArithmeticUtilization、PipeUtilization(默认值)、Memory、MemoryL0、MemoryUB、ResourceConflictRatio、L2Cache
说明:
支持自定义需要采集的寄存器,例如:--aic-metrics=Custom:0x49,0x8,0x15,0x1b,0x64,0x10。
  • Custom字段表示自定义类型,配置为具体的寄存器值,取值范围为[0x1, 0x6E]。
  • 配置的寄存器数最多不能超过8个,寄存器通过“,”区分开。
  • 寄存器的值支持十六进制或十进制。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

msprof_*.json中的AI Core Utilization层级和ai_core_utilization_*.csv文件

ai_vector_core_utilization_*.csv

以上文件仅--aic-mode=sample-based时生成

--sys-hardware-mem

DDR、HBM带宽及内存采集开关、LLC的读写带宽数据采集开关、acc_pmu数据和SoC传输带宽信息采集开关、组件内存采集开关,可选on或off,默认为off。

采集组件内存数据需要在采集AI任务性能数据(即指定--application参数)时才能采集到具体性能数据。

  • Atlas 200/300/500 推理产品:支持采集DDR、LLC、组件内存
  • Atlas 200/500 A2推理产品:支持采集DDR、LLC、acc_pmu数据、SoC传输带宽信息、组件内存
  • Atlas 推理系列产品(Ascend 310P处理器):支持采集DDR、LLC、组件内存
  • Atlas 训练系列产品:支持采集DDR、HBM、LLC、组件内存
  • Atlas A2训练系列产品:支持采集HBM、LLC、acc_pmu数据、SoC传输带宽信息、组件内存

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

msprof_*.json中的DDR层级和ddr_*.csv文件

msprof_*.json中的HBM层级和hbm_*.csv文件

msprof_*.json中的LLC of Ai CPU层级和llc_aicpu_*.csv文件

msprof_*.json中的LLC of Ctrl CPU层级和llc_ctrlcpu_*.csv文件

msprof_*.json中的LLC Bandwidth层级和llc_bandwidth_*.csv文件

msprof_*.json中的LLC层级和llc_read_write_*.csv文件

msprof_*.json中的acc_pmu层级

msprof_*.json中的Stars Soc Info层级

msprof_*.json中的NPU_MEM层级和npu_mem_*.csv文件

npu_module_mem_*.csv(需指定--application参数)

--sys-hardware-mem-freq

sys-hardware-mem的采集频率,范围[1,100],默认值为50,单位hz。

设置该参数需要sys-hardware-mem参数设置为on。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--llc-profiling

LLC Profiling采集事件,取值包括:

  • Atlas 200/300/500 推理产品
    • capacity:采集AI CPU和Control CPU的LLC capacity数据。
    • bandwidth:采集LLC bandwidth。默认值为capacity。
  • Atlas 200/500 A2推理产品
    • read:读事件,三级缓存读速率。
    • write:写事件,三级缓存写速率。默认为read。
  • Atlas 推理系列产品(Ascend 310P处理器)
    • read:读事件,三级缓存读速率。
    • write:写事件,三级缓存写速率。默认为read。
  • Atlas 训练系列产品
    • read:读事件,三级缓存读速率。
    • write:写事件,三级缓存写速率。默认为read。
  • Atlas A2训练系列产品
    • read:读事件,三级缓存读速率。
    • write:写事件,三级缓存写速率。默认为read。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

msprof_*.json中的LLC of Ai CPU层级和llc_aicpu_*.csv文件

msprof_*.json中的LLC of Ctrl CPU层级和llc_ctrlcpu_*.csv文件

msprof_*.json中的LLC Bandwidth层级和llc_bandwidth_*.csv文件

采集该数据需要sys-hardware-mem设置为on。

--sys-cpu-profiling

CPU(AI CPU、Ctrl CPU、TS CPU)采集开关。可选on或off,默认值为off。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

ai_cpu_top_function_*.csv

ai_cpu_pmu_events_*.csv

ctrl_cpu_top_function_*.csv

ctrl_cpu_pmu_events_*.csv

ts_cpu_top_function_*.csv

ts_cpu_pmu_events_*.csv

--sys-cpu-freq

CPU采集频率,范围[1,50],默认值为50,单位hz。

设置该参数需要sys-cpu-profiling参数设置为on。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--sys-profiling

系统CPU usage及System memory采集开关。可选on或off,默认值为off。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

cpu_usage_*.csv

sys_mem_*.csv

--sys-sampling-freq

系统CPU usage及System memory采集频率,范围[1,10],默认值为10,单位hz。

设置该参数需要sys-profiling参数设置为on。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--sys-pid-profiling

所有进程的CPU usage及所有进程的memory采集开关。可选on或off,默认值为off。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

process_cpu_usage_*.csv

process_mem_*.csv

--sys-pid-sampling-freq

所有进程的CPU usage及所有进程的memory采集频率,范围[1,10],默认值为10,单位hz。

设置该参数需要sys-pid-profiling参数设置为on。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--sys-io-profiling

NIC、ROCE采集开关。可选on或off,默认值为off。

  • Atlas 200/300/500 推理产品:支持采集NIC
  • Atlas 200/500 A2推理产品:支持采集NIC,容器场景参数不生效
  • Atlas 训练系列产品:支持采集NIC和和ROCE
  • Atlas A2训练系列产品:支持采集NIC和ROCE

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 训练系列产品

Atlas A2训练系列产品

msprof_*.json中的NIC层级和nic_*.csv文件

msprof_*.json中的RoCE层级和roce_*.csv文件

--sys-io-sampling-freq

NIC、ROCE采集频率,范围[1,100],默认值为100,单位hz。

设置该参数需要sys-io-profiling参数设置为on。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 训练系列产品

Atlas A2训练系列产品

-

--sys-interconnection-profiling

集合通信带宽数据(HCCS)、PCIe数据采集开关、片间传输带宽信息采集开关。可选on或off,默认值为off。

  • Atlas 推理系列产品(Ascend 310P处理器):支持采集PCIe数据
  • Atlas 训练系列产品:支持采集HCCS、PCIe数据
  • Atlas A2训练系列产品:支持采集HCCS、PCIe数据、片间传输带宽信息

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

msprof_*.json中的PCIe层级和pcie_*.csv文件

msprof_*.json中的HCCS层级和hccs_*.csv文件

msprof_*.json中的Stars Chip Trans层级

--sys-interconnection-freq

集合通信带宽数据(HCCS)、PCIe数据采集频率、片间传输带宽信息采集频率,范围[1,50],默认值为50,单位hz。

设置该参数需要sys-interconnection-profiling参数设置为on。

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--dvpp-profiling

DVPP采集开关,可选on或off,默认值为off。

Atlas 推理系列产品(Ascend 310P处理器):支持采集性能数据,暂不支持解析

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

Atlas 推理系列产品(Ascend 310P处理器)不支持解析该性能数据

dvpp_*.csv

--dvpp-freq

DVPP采集频率,范围[1,100],默认值为50,单位hz。

设置该参数需要dvpp-profiling参数设置为on。

Atlas 200/300/500 推理产品

Atlas 200/500 A2推理产品

Atlas 推理系列产品(Ascend 310P处理器)

Atlas 训练系列产品

Atlas A2训练系列产品

-

--instr-profiling

采集AI Core和AI Vector的带宽和延时开关,可选on或off,默认值为off。

需要在单算子场景下采集AI任务性能数据(即指定--application参数)时才能采集到具体性能数据。

Atlas A2训练系列产品:仅单算子场景支持

Atlas A2训练系列产品

msprof_*.json中的biu_group、aic_core_group、aiv_core_group层级

--instr-profiling-freq

AI Core和AI Vector的带宽和延时采集频率,范围[300,30000],默认值为1000,单位cycle。

设置该参数需要instr-profiling参数设置为on。

Atlas A2训练系列产品

-