数据处理:预处理流程与基准一致
目标
数据预处理流程与参考模型一致。
思路
用户模型代码的数据预处理流程可能存在基于资源自动设定的变量,该变量会导致对数据集打乱的随机性不一致。需要从代码级别确认数据预处理的接口调用,尽可能减小该差异。典型的例子为:
数据集shuffle时自动检测主机内存大小后设定buffer size,如果NPU主机与参考基准主机内存差异过大,那么数据集打乱的随机性也会产生明显差异,从而导致精度产生不期望的差异。
参考步骤
- 检查文件读取接口,确保读取数量与参考基准一致。
- 检查源数据格式到数据输入样本的转换过程,确保与基准一致。
- 检查对输入样本进行补齐等操作时,确保补齐方式与基准一致。
- 检查对数据输入样本进行乱序的方式一致,例如乱序片段的样本个数、乱序时的并行度均需一致。
父主题: 检查迁移后脚本