性能瓶颈识别

大模型网络迭代耗时通常由算子通信、计算以及框架调度三部分组成。可使用性能比对拆解工具对网络迭代中各部分耗时进行拆解,并与GPU进行比对,帮助识别网络性能瓶颈,进行针对性的分析与优化。

举例来说,图1中,NPU上Cube算子与Vector算子性能与竞品差距大,且耗时占比高,是性能优化的高优先级任务。通信耗时与竞品有差距,但在E2E耗时中占比低,是中优先级优化任务。调度耗时低于竞品且占比低,优先级较低。

图1 性能比对拆解示意图