Op_summary在PROF_XXX/device_xx/summary下,结构如下:
分析算子耗时需要重点关注2个文件,一个是算子分类汇总文件op_statistic_xx.csv,另一个是算子详细数据文件op_summary_xx.csv。
在op_statistic_xx.csv中可以分类统计Cube和Vector算子耗时,Core Type去除HCCL, 根据Op Type,Cube时间选择BatchMatMul和MatMul,统计的总时间即为Cube算子总耗时,剩余的时间为Vector算子总耗时。