简介
概述
MindStudio Insight是面向昇腾AI开发者的可视化调优工具,支持模型调优和算子调优的能力,使能开发者在训练、推理以及算子开发场景快速完成性能优化。
MindStudio Insight提供了丰富的调优分析手段,可视化呈现真实软硬件运行数据,多维度分析性能瓶颈点,支持百卡、千卡及以上规模的可视化集群性能分析,助力开发者天级完成性能调优。
Ascend Insight工具从7.0.RC2版本更名为MindStudio Insight。
优势
- MindStudio Insight支持在时间线(Timeline)查看集群场景下Profiling导出的数据,并以单卡为维度进行展示,且可以自动遍历输入路径下所有的trace_view.json文件(PyTorch场景和MindSpore场景)或msprof*.json文件(TensorFlow场景和离线推理场景),无需手动合并文件,操作简单。
- MindStudio Insight借助于数据库支持超大性能数据处理,可以支持20GB的集群性能文件分析,并且能够支持大模型场景下的性能调优。
场景
- 系统调优:MindStudio Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能,帮助开发者快速定位模型性能瓶颈。
表1 功能说明 功能界面
介绍
场景说明
时间线(Timeline)
以时间线视图方式为用户提供全流程在线推理/训练过程中的运行情况,并按照调度流程来呈现整体的运行状况,支持集群时间线(Timeline)展示、系统视图详情查看等功能。
-
内存(Memory)
提供采集过程中内存信息的可视化呈现。通过算子内存折线图直观清晰了解算子内存趋势。
-
算子(Operator)
提供算子耗时统计和分析。
-
概览(Summary)
展示计算算子和通信算子的耗时分析,并以柱状图、折线图以及数据窗格等呈现方式显示分析结果。
支持PyTorch或MindSpore集群场景。
通信(Communication)
展示集群中全网链路性能以及所有节点的通信性能,通过集群通信与计算重叠时间的分析可以找出集群训练中的慢主机或慢节点。
支持PyTorch或MindSpore集群场景。
Jupyter
展示ipynb格式文件,具有在线编辑、执行ipynb文件的能力,可以执行性能分析工具。
支持ipynb格式文件。
- 算子调优:MindStudio Insight提供指令流水视图、算子源码视图以及算子运行负载分析视图,直观地将运行在昇腾AI处理器上的算子的关键性能指标进行可视化呈现,帮助用户快速定位算子的软、硬件性能瓶颈,提升算子性能分析的效率。
表2 功能说明 功能界面
介绍
备注
时间线(Timeline)
以时间线视图方式为用户提供指令在昇腾AI处理器上的运行情况,并按照调度流程来呈现整体的运行状况,支持查看指令详情、搜索指令等功能。
-
源码(Source)
展示算子指令热点图,支持查看算子源码与指令集的映射关系和耗时情况。
支持算子指令热点bin文件。
详情(Details)
展示算子基础信息、计算负载分析和内存负载分析,并以图形和数据窗格呈现方式展示分析结果。
支持msprof采集的算子Profiling的bin文件。