文档
注册

分析结果展示

专家系统工具分析结果根据输入数据说明中所准备的文件进行分析,一次分析输出所有功能的结果,所以如果准备文件路径下未保存对应文件,则对应功能输出结果为空。

概览页

图1 分析结果Summary页面(Model Performance Report)
表1 Model Performance Report字段说明

字段名

字段解释

Model Performance Report

模型性能分析报告。

Model Performance

性能优劣,取值为Good/Bad。根据总体性能数据汇总计算得出。

Collection Info

汇总信息。

Cube Throughput

Cube吞吐量,单位为GOps。

Vector Throughput

Vector吞吐量,单位为GOps。

Aicore Time

AI Core执行时间,单位为us。

Task Duration

任务执行时间,单位为us。

Avg BlockDim Usage

平均BlockDim利用率,算子执行时的平均核心数,反映芯片利用情况。

Chip Utilization

芯片利用率。数值达到80为优,显示为绿色;小于80则为差,显示为红色。根据Pipeline Bound的数值计算得出。

Pipeline Bound

流水利用率。

Cube Ratio

Cube利用率。

Vector Ratio

Vector利用率。

Scalar Ratio

Scalar利用率。

MTE1 Bound

MTE1瓶颈。

MTE2 Bound

MTE2瓶颈。

MTE3 Bound

MTE3瓶颈。

Tiling Strategy

内存读入量的数据切片策略。数值达到80为优,显示为绿色;小于80则为差,显示为红色。根据Memory Redundant的数值计算得出。

Memory Redundant

内存冗余量。

Real Memory Input(GB)

真实内存读入量,单位为GB。

Real Memory Output(GB)

真实内存写出量,单位为GB。

Theory Memory Input(GB)

理论内存读入量,单位为GB。

Theory Memory Output(GB)

理论内存写出量,单位为GB。

Memory Read Redundant

内存读入冗余系数。真实内存读入量/理论内存读入量。

Memory Write Redundant

内存写出冗余系数。真实内存写出量/理论内存写出量。

图2 分析结果Summary页面(Computational Graph Optimization_UB Fusion Recommendation)
表2 Computational Graph Optimization_UB Fusion Recommendation字段说明

字段名

字段解释

Computational Graph Optimization

计算图优化。算子融合推荐功能专家系统分析建议。分行展示可融合的算子。可单击栏目右上角See More...”查看具体的可融合算子。

UB fusion operators need to be optimized

需要进行UB融合的算子。

UB Fusion Recommendation

UB融合推荐。栏目下方展示可融合算子。

Fusion Type

可融合算子类型。

Fusion Operator Detail

可融合算子详细信息,算子名称之间以逗号隔开。

Fusion Operator Duration(us)

可融合算子的执行时间。单位为us。

图3 分析结果Summary页面(Computational Graph Optimization_AIPP Fusion Recommendation)
表3 Computational Graph Optimization_AIPP Fusion Recommendation字段说明

字段名

字段解释

Fuse Cast/TransData with Conv needs to be optimized

需要进行AIPP首层算子融合的算子。

AIPP Fusion Recommendation

AIPP融合推荐。栏目下方展示可融合算子。

Fusion Operator Detail

可融合算子详细信息,算子名称之间以逗号隔开。

Fusion Operator Duration(us)

可融合算子的执行时间。单位为us。

图4 分析结果Summary页面(Computational Graph Optimization_TransData Fusion Recommendation)
表4 Computational Graph Optimization_TransData Fusion Recommendation字段说明

字段名

字段解释

TransData fusion operators need to be optimized.

Total time of TransData task is xx(us), accounted for xx% of the total task.

TransData算子需要优化。

TransData算子总时长xx(us),占所有任务时间占比xx%。

TransData Fusion Recommendation

推荐消除的TransData算子。栏目下方展示可消除算子信息。

Reshape_Ops_Interrupts_Format

Reshape_Ops_Interrupts_Format的优化建议。

Attempt to modify the model to avoid discontinuous operations.

在不影响精度的情况下尽量避免非连续的操作。

Modify the model and use clone and continuous operations to break the combination of multiple non-consecutive operations.

使用clone、contiguous将多个非连续操作的组合断开。

Other_Transform

Other_Transform的优化建议。

It is a reasonable scenario that transdata operation exists, for example, 4D to 5D before Conv2D.

这是TransData合理存在的场景,比如在Conv2D算子之前,需要把格式由4D转为5D。

Op Name

算子名称。

Task Duration(us)

算子执行持续时间。

Input Formats

算子输入格式。

Output Formats

算子输出格式。

图5 分析结果Summary页面(Computational Graph Optimization_L2Cache Fusion Recommendation)
表5 Computational Graph Optimization_L2Cache Fusion Recommendation字段说明

字段名

字段解释

L2 fusion operators need to be optimized

L2融合算子需要优化。

L2Cache Fusion Recommendation

L2Cache融合推荐。栏目下方展示可融合算子。

Fusion Operator Detail

可融合算子详细信息,算子名称之间以逗号隔开。

Fusion Operator Duration(us)

可融合算子的执行时间。单位为us。

图6 分析结果Summary页面(Roofline)
表6 Roofline字段说明

字段名

字段解释

Roofline

基于Roofline模型的算子瓶颈识别与优化建议Top3算子信息。可单击栏目右上角See More...”查看详细结果信息。

Top Ops

前三个算子。栏目下方展示Roofline模型的前三个可优化算子基本信息。

Op Name

算子名称。

Aicore Time(us)

AI Core运行时间,单位为us。

Bottleneck pathway

瓶颈通路,即工作点最靠近roofline的通路。

Bottleneck Rate

瓶颈率,即工作点占roofline上限的百分比。

Bottleneck Pipeline

占比最高的流水。

Pipeline Rate

流水最高占比。

Bound Type

瓶颈分类。

Task Duration Ratio(%)

Task耗时占比。

图7 分析结果Summary页面(Model Graph Optimization)
表7 Model Graph Optimization字段说明

字段名

字段解释

Model Graph Optimization

模型优化建议。

Top AICPU Ops

算子列表(按耗时从大到小排序)。

Operator name

算子名。

Task Start Time

任务开始时间。

Task Duration

Task耗时。

Task Duration Ratio

Task耗时占比。

Recommendations of aicpu operations optimization

AI CPU算子优化建议。

图8 分析结果Summary页面(Operating Environment)
表8 Operating Environment字段说明

字段名

字段解释

Operating Environment

操作环境。

Host Operating System

Host侧操作系统。

Host Computer Name

Host侧计算机名称。

CPU Name

CPU 名称。

CPU Name Type

CPU 名称类型。

Control CPU Type

CtrlCPU类型。

Control CPU Number

CtrlCPU数量。

TS CPU Number

TS CPU数量。

AI CPU Number

AI CPU数量。

Computational Graph Optimization页面(算子融合推荐功能输出结果)

Computational Graph Optimization页面输出结果包含算子融合推荐TransData算子识别两个功能,本节介绍算子融合推荐功能。

图9 分析结果Computational Graph Optimization(算子融合推荐功能)

上图中各区域展示信息如下:

  • 1区域:展示模型可视化界面,展示模型中所有算子并高亮可融合算子。
  • 2区域:展示算子详细信息,需单击可视化界面中某个算子时展示该算子信息。
  • 3区域:展示算子搜索栏,以算子名称形式显示模型中所有算子,可以搜索具体的算子名称,单击搜索栏下放算子名称也可展示对应算子详细信息。
  • 4区域:展示分析结果。对应字段解释请参见表2表3表5
    • 页签部分展示算子融合推荐的UB、AIPP、L2Cache融合功能分析结果页签,单击可跳转到对应功能的分析结果。
    • 列表部分展示可融合算子,一行展示一条可融合信息,各个算子名以逗号隔开,内容过长的可将光标悬浮在对应行上方即可展示详细可融合算子,单击对应的行则在可视化视图上会跳转到对应算子位置。

    图9中“For more case references, please visit here.”,提示有关算子融合推荐功能输出的结果分析可单击链接访问UB算子融合推荐分析样例。若在结果界面上单击超链接,需要预先在Linux服务器上安装FireFox火狐浏览器。

Computational Graph Optimization页面(TransData算子识别功能输出结果)

Computational Graph Optimization页面输出结果包含算子融合推荐TransData算子识别两个功能,本节介绍TransData算子识别功能。

图10 分析结果Computational Graph Optimization(TransData算子识别功能)

上图中各区域展示信息如下:

  • 1区域:展示模型可视化界面,展示模型中所有算子并高亮可消除算子。
  • 2区域:展示算子详细信息,需单击可视化界面中某个算子时展示该算子信息。
  • 3区域:展示算子搜索栏,以算子名称形式显示模型中所有算子,可以搜索具体的算子名称,单击搜索栏下放算子名称也可展示对应算子详细信息。
  • 4区域:展示分析结果。对应字段解释请参见表4
    • 页签部分单击TransData Fusion Recommendation展示TransData算子识别分析结果页签。
    • 下拉框部分为不同维度的优化建议。
    • 列表部分展示可消除算子,一行展示一条可融合信息,单击对应的行则在可视化视图上会跳转到对应算子位置。

Roofline页面(基于Roofline模型的算子瓶颈识别与优化建议功能输出结果)

图11 分析结果Roofline

上图中各区域展示信息如下:

  • 1区域:展示专家系统分析结果Roofline模型的Channel通路。
    • 1区域每一项对应4区域中某个工作点信息,勾选表示在4区域中展示,去勾选表示不展示,默认全部勾选。
    • 1区域的Channel通路与4区域工作点及线条颜色对应关系为:
      • Cube:MTE1-蓝色;MTE2-绿色;MTE3-红色。
      • Vector:MTE2-绿色;MTE3-红色;PIPE_V-黄色。
  • 2区域:展示TopN算子信息,可选择展示Top3、Top5和Top10,支持搜索某个算子。字段解释请参见表6。单击具体算子名可以在3区域展示对该算子专家系统建议,4区域显示该算子对应的工作点及瓶颈信息。
  • 3区域:展示具体存在瓶颈算子的专家系统建议,需要单击2区域的具体算子名。

    图11中第4点建议为“For more case references, please visit here.”,提示有关基于Roofline模型的算子瓶颈识别与优化建议功能输出结果分析可单击链接访问Roofline模型的优化分析样例。若在结果界面上单击超链接,需要预先在Linux服务器上安装FireFox火狐浏览器。

  • 4区域:展示以坐标轴方式Roofline模型专家系统分析结果。展示算子分别在Cube和Vector计算单元下的算力情况以及理论算力和带宽。
    • 坐标轴中的横坐标单位是Ops/Byte,表示计算强度,每搬运1byte数据可以进行多少次运算,越大表示内存搬运利用率越高。
    • 纵坐标单位是Tops/s,表示运算速度,越大表示运算越快。
    • 线条转折部分将Roofline模型分成两个部分,斜线部分为Memory Bound(内存限制),横线部分为Compute Bound(计算限制),且实际工作点(图中的彩色点)越靠近对应颜色的斜线,表示Bound越严重,为主要瓶颈所在。
    • 显示情况由1区域勾选情况决定,其中Multiple roofline overlap的斜线表示有多条Channel通路输出带宽一致导致线条重合,可通过去勾选1区域中相同输出带宽值的Channel项来确定对应斜线代表的是哪个Channel。
    • 光标悬浮在工作点上方可显示对应工作点信息。
    • 工作点按从大到小表示存在瓶颈问题的算子依次为Top1~Top3。

Model Graph Optimization页面(基于Timeline的AI CPU算子优化功能输出结果)

图12 分析结果Model Graph Optimization

上图中各区域展示信息如下:

  • 1区域:展示专家系统基于Timeline的AI CPU算子优化功能分析结果Top3 AI CPU算子等待串行后的执行时间和优化建议。
  • 2区域:展示专家系统AI CPU算子优化建议。
  • 3区域:展示Profiling采集的Timeline视图。

图12中2区域第5点建议为:“For more case references, please visit here.”,提示有关基于Timeline的AI CPU算子优化功能输出结果分析可单击链接访问基于Timeline的AI CPU算子优化分析样例。若在结果界面上单击超链接,需要预先在Linux服务器上安装FireFox火狐浏览器。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词