数据处理:多节点分片方式与基准一致
目标
多节点对数据的分片方式需要与参考模型一致。
思路
用户模型代码的多节点数据预处理流程可能存在基于文件名、文件个数等进行分片的模式。
该模式下由于文件读取接口在不同节点上对文件名排序的不同,会导致分片差异较大甚至文件重复分片到不同节点等不期望的结果。
需要增加调试代码排除类似问题,确认分片规则与基准一致。
参考步骤
- 分别在参考基准和迁移后的模型上增加对输入文件列表的打印。
- 检查文件在节点间的分片策略与参考基准一致。
父主题: 检查迁移后脚本
多节点对数据的分片方式需要与参考模型一致。
用户模型代码的多节点数据预处理流程可能存在基于文件名、文件个数等进行分片的模式。
该模式下由于文件读取接口在不同节点上对文件名排序的不同,会导致分片差异较大甚至文件重复分片到不同节点等不期望的结果。
需要增加调试代码排除类似问题,确认分片规则与基准一致。