指令流水图
以指令维度展示时序关系,并关联调用栈快速追踪瓶颈位置。支持以下两种可视化呈现方式:
- 添加 -g 编译选项会在生成的二进制文件中附带调试信息,建议限制带有调试信息的用户程序的访问权限,确保只有授权人员可以访问该二进制文件。
- 若不使用llvm-symbolizer组件提供的相关功能,输入msProf的程序编译时不包含-g即可,msProf工具则不会调用llvm-symbolizer组件的相关功能。
- 若用户仅需关注部分算子性能时,可在
Atlas 推理系列产品 和Atlas A2训练系列产品的单核内调用TRACE_START和TRACE_START接口。并在编译配置文件中添加-DASCENDC_TRACE_ON,具体操作请参见添加-DASCENDC_TRACE_ON的方法。然后,才能生成该范围内的流水图信息,具体流水图显示内容可参考指令流水图。 - 用户需在编译配置文件中添加-DASCENDC_TRACE_ON,具体修改方法可参考以下样例工程。
- MatMulCustomSample算子工程,需编辑${install_path}/samples/operator/MatMulCustomSample/KernelLaunch/MatMulInvocationNeo/cmake/npu_lib.cmake。
ascendc_compile_definitions ( ... -DASCENDC_TRACE_ON )
- AddCustomSample算子工程,需编辑${install_path}/samples/operator/AddCustomSample/FrameworkLaunch/AddCustom/op_kernel/CMakeLists.txt。
add_ops_compile_options ( ... -DASCENDC_TRACE_ON )
- MatMulCustomSample算子工程,需编辑${install_path}/samples/operator/MatMulCustomSample/KernelLaunch/MatMulInvocationNeo/cmake/npu_lib.cmake。
- Chrome浏览器
在Chrome浏览器中输入“chrome://tracing”地址,并将通过工具使用会生成指令流水图文件(trace.json)拖到空白处打开,键盘上输入快捷键(W:放大,S:缩小,A:左移,D:右移)可进行查看。关键字段说明如表1。
表1 关键字段说明 字段名
字段含义
VECTOR
向量运算单元。
SCALAR
标量运算单元。
CUBE
矩阵乘运算单元。
MTE1
数据搬运流水,数据搬运方向为:L1 ->{L0A/L0B, UBUF}。
MTE2
数据搬运流水,数据搬运方向为:{DDR/GM, L2} ->{L1, L0A/B, UBUF}。
MTE3
数据搬运流水,数据搬运方向为:UBUF -> {DDR/GM, L2, L1}、L1->{DDR/L2}。
FIXP
数据搬运流水,数据搬运方向为:FIXPIPE L0C -> OUT/L1。(仅
Atlas A2 训练系列产品/Atlas 800I A2 推理产品 支持展示)FLOWCTRL
控制流指令。
CACHEMISS
未命中ICache。
USEMASK
自定义打点范围。
ALL
表示在这个通道的指令在所有通道都执行。
- MindStudio Insight
通过msprof op simulator生成的trace.json文件或visualize_data.bin文件可导入MindStudio Insight进行可视化呈现。
指令流水图介绍(以MindStudio Insight为例)
MindStudio Insight工具以时序图方式为用户提供指令在昇腾AI处理器上的运行情况,用户可通过分析时序图中的指令详情、指令执行时间、指令关联代码的调用栈及指令/流水间同步连线等信息,识别微观指令的时序优化点。
图1 时间线界面
- 展示各Pipe中各指令的运行时长以及不同Pipe间的指令依赖关系,帮助用户分析流水排布间可能存在的性能优化点。
- 支持将流水指令信息与代码关联,指导用户如何基于代码去优化流水排布。
通过观察Timeline各个层级上的耗时长短、间隙等判断对应指令和Pipe是否存在性能问题,如指令执行是否存在瓶颈、是否存在高耗时的指令等。
父主题: msProf