性能问题定位流程
大模型训练的基本性能调优流程如下:
图1 基本性能调优流
性能调优最重要的就是对症下药,先定界问题,再对问题进行针对性优化。
- 首先进行性能数据采集,可以使用Ascend PyTorch Profiler提供的接口进行数据采集和解析;
- 接下来,使用MindStudio Insight可视化工具定界性能问题,定界结果通常分为计算、调度、通信三个方向的问题;
- 除此之外,用户还可以直接使用mstt中的Advisor工具辅助定位问题,Advisor工具通过内置的案例集,自动对性能数据进行分析,并输出性能调优建议;
- 最后,用户可以针对不同问题使用对应的调优手段进行调优,每次调优后重跑训练,采集性能数据,使用MindStudio Insight可视化工具查看调优手段是否产生效果。重复这个过程,直到解决性能问题。
父主题: 问题定位方法