通过Profiling数据分析算子问题,相关文件参数解释请参见
《性能分析工具使用指南》中“Profiling数据说明”章节。以下以E2E profiling数据采集方式为例。
- 通过profiling结果数据op_summary文件(./result/PROF_***/device_0/summary/op_summary_***.csv文件)分析调度任务执行时间,排查算子耗时。
按照Task Duration排序,找出高耗时算子。

- 通过profiling结果数据op_summary文件(./result/PROF_***/device_0/summary/op_summary_***.csv文件)分析算子类型。
按照Task Type排序,查看是否AI CPU算子耗时过高。

- 通过profiling结果数据op_statistic_文件(./result/PROF_***/device_0/summary/op_statistic_***.csv文件)分析算子调用总时间,排查是否算子总耗时较长。
按照Total Time排序,分析转换类算子是否耗时占比较大,如transdata、cast。

- 通过结合PyTorch profiling数据的json文件和CANN profiling获得的算子信息文件分析是否存在动态shape问题。
如果CPU轴无算子耗时,则排除调度问题。再结合算子信息文件,若算子耗时较大,则大概率为编译耗时,可能存在动态shape。
