文档
注册

msprof(timeline数据总表)

timeline数据总表文件为msprof*.json。

msprof*.json在“chrome://tracing”中展示如下。

图1 timeline汇总展示

图1所示,timeline汇总数据主要展示如下区域:

  • 区域1:应用层数据,包含上层应用算子的耗时信息,需要使用msproftx采集或PyTorch场景采集。
  • 区域2:CANN层数据,主要包含AscendCL、Runtime等组件以及Node(算子)的耗时数据。
  • 区域3:底层NPU数据,主要包含Ascend Hardware下各个Stream任务流的耗时数据和迭代轨迹数据、HCCL和Overlap Analysis通信数据以及其他昇腾AI处理器系统数据。
  • 区域4:展示timeline中各算子、接口的详细信息(单击各个timeline时展示)。
  • timeline数据总表的数据在性能数据文件参考均有对应数据的详细介绍。
  • 上图中各区域的数据与采集场景有关,例如非Ascend EP场景不生成host相关数据;区域1仅在msproftx或PyTorch场景采集时生成;HCCL和Overlap Analysis通信数据仅在多卡、多节点或集群等存在通信的场景可采集到数据等。请以采集数据实际情况为准。
  • msprof*.json展示的数据是迭代内的数据,迭代外的数据不展示。

查看算子下发方向

在tracing中查看.json文件时,开启“Flow events”下的选项后,应用层算子到NPU算子之间通过连线方式展示下发到执行的对应关系。如图2所示。

主要包括的对应关系有:

  • async_npu:应用层算子 > Ascend Hardware的NPU算子的下发执行关系。
  • MsTx:训练或推理进程打点任务 > Ascend Hardware的NPU打点算子的下发执行关系。调用aclprofMarkEx接口打点时生成。
  • async_task_queue:应用层Enqueue > Dequeue的入队列到出队列对应关系。
  • HostToDevice:CANN层Node(算子) > AscendHardware的NPU算子的下发执行关系(Host到Device)。
  • HostToDevice:CANN层Node(算子) > HCCL通信算子的下发执行关系(Host到Device)。
  • fwdbwd:前向API > 反向API。
  • 由于软件测量的昇腾AI处理器频率与真实频率有误差,以及host与device的时间同步误差,可能会出现下层算子因错位而无法连线的问题。
  • 各层的对应关系是否呈现与对应采集场景是否采集该数据有关,请以实际情况为准。
图2 算子映射关系

通过单击连线两端的算子或接口,即可查看算子下发的方向。如图3所示。

图3 算子信息

其中Event(s)列查看该算子或接口的出入方向,Link列查看映射关系两端的信息。

查看AI Core频率

支持的型号:

  • Atlas 200I/500 A2推理产品
  • Atlas A2训练系列产品/Atlas 800I A2推理产品

msprof*.json下的“AI Core Freq”层级展示AI Core芯片在执行AI任务的过程中频率的变化情况,如图4所示。

图4 查看AI Core频率

在148089.72045898438时刻下,AI Core处于高频状态,而在170178.44116210938时刻频率降低,那么在该时间段下AI任务的性能必然下降。AI Core芯片可能因温度升高,触发保护机制,降低频率;也可能因当前无AI任务运行,AI Core进入低功耗状态而降频。

在发生变频时,实际变频时间与软件监测到的时间存在0~1ms的延时,该延时可能导致变频前后统计出的算子执行时间与实际不符。

QoS数据分析

msprof*.json下的“QoS”层级展示设备QoS带宽信息。

支持的型号:

  • Atlas A2训练系列产品/Atlas 800I A2推理产品
图5 QoS OTHERS

图中色块横坐标对应时间Time,单位ms,纵坐标对应带宽Value,单位MB/s。

未被定义的业务流或加速器的带宽数据会被统计在OTHERS内;对于用户定义的业务流或加速器的带宽数据,将会单独显示其带宽数据,如图6所示。

图6 QoS

字段名

字段含义

QoS OTHERS

默认情况下QoS带宽信息。

QoS {name}

被定义的业务流或加速器QoS带宽信息,如图6中DVPP_JPEGD、DVPP_JPEGE等。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词