分析数据
大集群性能数据导入成功后,可通过概览(Summary)和通信(Communication)界面的内容,定位慢卡问题,并针对慢卡问题,在时间线(Timeline)界面进行具体分析。
定位慢卡问题
- 在概览(Summary)界面,输入模型脚本对应的并行策略值,如图1所示。其中PP为流水线并行(Pipeline Parallelism),TP为张量并行(Tensor Parallelism),DP为数据并行(Data Parallelism)。
- 在“计算/通信概览”区域,分别选择“迭代ID”和“通信域”,查看柱状图,观察总计算时间和未被覆盖的通信时间时长,如图2所示。
慢卡通常表现为总计算耗时长,通信时间耗时短。
- 在通信(Communication)界面,选择“通信耗时分析”,并选择需要查看的“迭代ID”和“通信域”,在“通信时长数据分析”区域,查看所选通信域的各卡的“总时间(ms)”耗时情况。
- 单击“总时间(ms)”后的
,由大到小进行降序排序,如果发现时间差距很大的两张卡,那么耗时最短的卡即为慢卡,如图3所示。
- 单击慢卡“通信算子详情”列的“查看更多”,可查看每个通信算子耗时。
- 单击算子“总时间(ms)”后的
,进行降序排序,可以看到耗时最长的算子,如图4所示,复制该算子名称。
- 在通信(Communication)界面,参数配置区域的“算子名称”选项中粘贴已复制的算子名称,在下拉框选择该算子。
- 分别在“HCCL”和“通信时长”区域图表中,可看到该算子的耗时不对等,如图5所示,可判断是由慢卡引起的。