Cluster Iteration Analysis
Cluster Iteration Analysis训练集群场景迭代性能分析数据汇总,包含汇总页信息及每轮迭代的详细数据。
MindStudio不支持集群场景的数据采集,可通过Merge Reports导入已采集的PROF_XXX的父目录来展示集群场景性能数据。
汇总页信息界面
首次进入Cluster Analysis页面时,展示汇总页信息,柱状图最多显示10组数据。
将汇总页信息界面分为区域1~4,详细字段解释请参见表1、表2、表3和表4。
- 当Type选择Iteration ID时,展示Step Trace(迭代轨迹数据)和Collective Communication(集合通信数据);当Type选择Rank ID时仅展示Step Trace。
- 单击汇总页信息界面中Step Trace某个柱状图时,弹出该Iteration ID/Rank ID的迭代详细数据界面。
- 柱状图横纵坐标说明如下:
- 当Type选择Iteration ID时,横坐标表示从左至右根据所有集群节点的迭代轨迹默认按总耗时降序排列,集合通信数据按通信时间降序排列,单击2、4区域表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示耗时。
- 当Type选择Rank ID时,横坐标表示从左至右根据当前集群节点所有的迭代轨迹默认按总耗时降序排列,单击2区域表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示迭代耗时。
字段 |
说明 |
---|---|
Type |
数据展示方式: |
Iteration ID |
迭代ID,查看指定迭代的所有设备迭代数据。 |
Rank ID |
节点ID,查看指定节点的所有迭代数据。 |
Model ID |
模型ID,查看指定迭代/节点的指定模型迭代数据。 |
Apply |
数据导出按钮。当选定Iteration ID/Rank ID和Model ID并单击该按钮时,导出该节点的Cluster Iteration Analysis。 |
Step Trace |
迭代轨迹数据。 |
Bar Chart |
柱状图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP time、Iteration Refresh和Iteration Interval耗时数据以并排柱状图展示。 |
Stack Chart |
堆叠图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP time、Iteration Refresh和Iteration Interval耗时数据以堆叠柱状图展示。 |
Top |
可通过配置Top参数值选择展示迭代总耗时最长的TopN条数据。取值范围1~200,默认值为10。 |
字段 |
说明 |
---|---|
Iteration ID |
迭代ID。 |
Rank ID |
节点ID。 |
FP to BP time(us) |
FP/BP计算时间(BP End - FP Start)。单位为us。 |
Iteration Refresh(us) |
迭代更新拖尾(Iteration End - BP End)。单位为us。 |
Iteration Interval(us) |
迭代间隙。单位为us。 |
Total Time(us) |
迭代总耗时。 |
迭代详细数据界面
区域1:
Timeline详细介绍请参见Timeline视图。
区域2:
Operator Statistics:算子统计
区域3:
Computing Workload:算子计算量
饼图与右侧表格无联动,根据右侧表格中的OP Type列各算子类型所占比例绘制,且仅当Profiling采集Task-based模式数据时才能展示。字段展示与AI Core采集类型有关,各字段含义请参见AI Core Metrics视图。