文档
注册

迭代轨迹数据

迭代轨迹数据step_trace_*.csv。

step_trace_*.csv文件内容格式示例如下:

关键字段说明如下。

表1 字段说明

字段名

字段解释

Iteration ID

迭代ID。

FP Start

FP开始时间。单位为us。

BP End

BP结束时间。单位为us。

Iteration End

每轮迭代结束的时间。单位为us。

Iteration Time(us)

迭代时长。单位为us。

FP to BP Time(us)

FP/BP计算时间(BP End - FP Start)。单位为us。

Iteration Refresh(us)

迭代更新拖尾(Iteration End - BP End)。单位为us。

Data Aug Bound(us)

数据增强拖尾(本轮迭代FP Start - 上一个迭代Iteration End)。如果计算第一轮数据增强拖尾时没有上一轮迭代的Iteration End数据,那么第一轮迭代的数据增强拖尾数据值默认为N/A。单位为us。

Model ID

某轮迭代的模型中的图ID。

Reduce Duration(us)

集合通信时间,可能存在多组集合通信时间,本示例按照系统默认切分策略是分为两段集合通信时间,Reduce Start表示开始时间,Reduce Duration表示由开始到结束时间,单位us;如果非多P环境,则没有Reduce数据。

注:离线推理场景下不采集FP(训练网络迭代轨迹正向算子的开始位置)和BP(训练网络迭代轨迹反向算子的结束位置),采集结果将显示FP Start、BP End、FP_BP Time、Iteration Refresh和Data_aug Bound为NA。

迭代轨迹数据即训练任务及AI软件栈的软件信息,实现对训练任务的性能分析。以默认的两段式梯度切分为例,通过打印出训练任务中关键节点fp_start/bp_end/Reduce Start/Reduce Duration(us)的时间,达到把一个迭代的执行情况描述清楚的目的。

如图,如果需要确定梯度切分策略,则需要计算图中bp_end - allreduce1_end的大小。根据已获取的迭代轨迹数据,我们需要使用第一组集合通信时间来计算,具体公式如下:(BP End – Reduce End)/ freq。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词