文档
注册

Cluster Iteration Analysis

Cluster Iteration Analysis训练集群场景迭代性能分析数据汇总,包含汇总页信息及每轮迭代的详细数据。

MindStudio不支持集群场景的数据采集,可通过Merge Reports导入已采集的PROF_XXX的父目录来展示集群场景性能数据。

汇总页信息界面

首次进入Cluster Analysis页面时,展示汇总页信息,柱状图最多显示10组数据。

将汇总页信息界面分为区域1~4,详细字段解释请参见表1表2表3表4

图1 Iteration ID
图2 Rank ID
  • 当Type选择Iteration ID时,展示Step Trace(迭代轨迹数据)和Collective Communication(集合通信数据);当Type选择Rank ID时仅展示Step Trace。
  • 单击汇总页信息界面中Step Trace某个柱状图时,弹出该Iteration ID/Rank ID的迭代详细数据界面
  • 柱状图横纵坐标说明如下:
    • 当Type选择Iteration ID时,横坐标表示从左至右根据所有集群节点的迭代轨迹默认按总耗时降序排列,集合通信数据按通信时间降序排列,单击2、4区域表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示耗时。
    • 当Type选择Rank ID时,横坐标表示从左至右根据当前集群节点所有的迭代轨迹默认按总耗时降序排列,单击2区域表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示迭代耗时。
表1 区域1字段说明

字段

说明

Type

数据展示方式:

  • Iteration ID(迭代ID):Type选择Iteration ID并单击“Apply”时,下方柱状图显示当前迭代中所有集群节点的迭代数据。如图1所示。
  • Rank ID(节点ID):Type栏选择Rank ID并单击“Apply”时,下方柱状图显示当前集群节点所有迭代数据。如图2所示。

Iteration ID

迭代ID,查看指定迭代的所有设备迭代数据。

Rank ID

节点ID,查看指定节点的所有迭代数据。

Model ID

模型ID,查看指定迭代/节点的指定模型迭代数据。

Apply

数据导出按钮。当选定Iteration ID/Rank ID和Model ID并单击该按钮时,导出该节点的Cluster Iteration Analysis。

Step Trace

迭代轨迹数据。

Bar Chart

柱状图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP time、Iteration Refresh和Iteration Interval耗时数据以并排柱状图展示。

Stack Chart

堆叠图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP time、Iteration Refresh和Iteration Interval耗时数据以堆叠柱状图展示。

Top

可通过配置Top参数值选择展示迭代总耗时最长的TopN条数据。取值范围1~200,默认值为10。

表2 区域2字段说明

字段

说明

Iteration ID

迭代ID。

Rank ID

节点ID。

FP to BP time(us)

FP/BP计算时间(BP End - FP Start)。单位为us。

Iteration Refresh(us)

迭代更新拖尾(Iteration End - BP End)。单位为us。

Iteration Interval(us)

迭代间隙。单位为us。

Total Time(us)

迭代总耗时。

表3 区域3字段说明

字段

说明

Collective Communication

集合通信数据。

Top

可通过配置Top参数值选择展示集合通信总耗时最长的TopN条数据。取值范围1~200,默认值为10。

表4 区域4字段说明

字段

说明

Rank ID

节点ID。

Stage Time(us)

Stage时间。单位为us。

Communication Time(us)

纯通信时间。单位为us。

Computation Time(us)

计算时间。单位为us。

迭代详细数据界面

单击汇总页信息界面中Step Trace某个柱状图时,弹出该Iteration ID/Rank ID的详细性能数据信息,包括区域1(Timeline)、区域2(Operator Statistics)和区域3(Computing Workload)。如图3所示。
图3 迭代详细数据界面

区域1

Timeline详细介绍请参见Timeline视图

区域2

Operator Statistics:算子统计

左侧饼图与右侧表格数据联动,单击某列表头时,饼图按照该列实际数据显示各数据所占比例。详细字段解释请参见表5
表5 Operator Statistics字段说明

字段

说明

Model Name

模型名称。如果Model Name值为空,则可能为获取的数据中该值为空。

OP Type

算子类型。

Core Type

Core类型。

Count

算子调用次数。

Total Time(us)

算子调用总耗时,单位us。

Min Time(us)

算子调用最小耗时,单位us。

Avg Time(us)

算子调用平均耗时,单位us。

Max Time(us)

算子调用最大耗时,单位us。

Total Time Ratio(%)

该类算子在对应模型中的耗时占比。

区域3

Computing Workload:算子计算量

饼图与右侧表格无联动,根据右侧表格中的OP Type列各算子类型所占比例绘制,且仅当Profiling采集Task-based模式数据时才能展示。字段展示与AI Core采集类型有关,各字段含义请参见AI Core Metrics视图

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词