下载
中文
注册

数据处理:预处理流程与基准一致

目标

数据预处理流程与参考模型一致。

思路

用户模型代码的数据预处理流程可能存在基于资源自动设定的变量,该变量会导致对数据集打乱的随机性不一致。需要从代码级别确认数据预处理的接口调用,尽可能减小该差异。典型的例子为:

数据集shuffle时自动检测主机内存大小后设定buffer size,如果NPU主机与参考基准主机内存差异过大,那么数据集打乱的随机性也会产生明显差异,从而导致精度产生不期望的差异。

参考步骤

  1. 检查文件读取接口,确保读取数量与参考基准一致。
  2. 检查源数据格式到数据输入样本的转换过程,确保与基准一致。
  3. 检查对输入样本进行补齐等操作时,确保补齐方式与基准一致。
  4. 检查对数据输入样本进行乱序的方式一致,例如乱序片段的样本个数、乱序时的并行度均需一致。