简介
概述
MindStudio Insight是一款主要针对大模型集群场景的调优可视化工具,解决了大模型场景下性能数据量大、无法直接读取到内存及可视化界面渲染时间长等问题,并提供全景交互分析能力。
MindStudio Insight提供了性能数据的多种呈现形式,包括时间线视图、通信分析、计算耗时等的可视化呈现,以便用户分析潜在的性能瓶颈,并指导如何采取措施消除或减少这些瓶颈。
Ascend Insight工具从7.0.RC2版本更名为MindStudio Insight。
优势
- MindStudio Insight支持在时间线(Timeline)查看集群场景下Profiling导出的数据,并以单卡为维度进行展示,且可以自动遍历输入路径下所有的trace_view.json文件(PyTorch场景)或msprof*.json文件(TensorFlow场景和离线推理场景),无需手动合并文件,操作简单。
- MindStudio Insight借助于数据库支持超大性能数据处理,可以支持20GB的集群性能文件分析,并且能够支持大模型场景下的性能调优。
场景
- 系统调优:MindStudio Insight提供时间线视图、显存、算子耗时、通信瓶颈分析等功能,帮助开发者快速定位模型性能瓶颈。
表1 功能说明 功能界面
介绍
场景说明
时间线(Timeline)
以时间线视图方式为用户提供全流程在线推理/训练过程中的运行情况,并按照调度流程来呈现整体的运行状况,支持集群时间线(Timeline)展示、系统视图详情查看等功能。
-
内存(Memory)
提供采集过程中内存信息的可视化呈现。通过算子内存折线图直观清晰了解算子内存趋势。
-
算子(Operator)
提供算子耗时统计和分析。
-
概览(Summary)
展示计算算子和通信算子的耗时分析,并以柱状图、折线图以及数据窗格等呈现方式显示分析结果。
仅在导入PyTorch或MindSpore集群场景数据时才会支持。
通信(Communication)
展示集群中全网链路性能以及所有节点的通信性能,通过集群通信与计算重叠时间的分析可以找出集群训练中的慢主机或慢节点。
仅在导入PyTorch或MindSpore集群场景数据时才会支持。
Jupyter
展示ipynb格式文件,具有在线编辑、执行ipynb文件的能力,可以执行性能分析工具。
仅支持展示ipynb格式文件。
- 算子调优:MindStudio Insight提供指令流水视图、算子源码视图以及算子运行负载分析视图,直观地将运行在昇腾AI处理器上的算子的关键性能指标进行可视化呈现,帮助用户快速定位算子的软、硬件性能瓶颈,提升算子性能分析的效率。
表2 功能说明 功能界面
介绍
备注
时间线(Timeline)
以时间线视图方式为用户提供指令在昇腾AI处理器上的运行情况,并按照调度流程来呈现整体的运行状况,支持查看指令详情、搜索指令等功能。
-
源码(Source)
展示算子指令热点图,支持查看算子源码与指令集的映射关系和耗时情况。
仅在导入算子指令热点bin文件时存在此界面。
详情(Details)
展示算子基础信息、计算负载分析和内存负载分析,并以柱状图和数据窗格呈现方式显示分析结果。
仅支持展示msprof采集的算子Profiling的bin文件。