下载
中文
注册
ModelArts多机多卡训练GPT2-13B大模型时报错EI0002: The wait execution of the Notify register times out

ModelArts多机多卡训练GPT2-13B大模型时报错EI0002: The wait execution of the Notify register times out

2024/02/22

176

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练MindSporeModelArts多机多卡、训练GPT2-13B

问题现象描述

ModelArts上多机多卡训练GPT2-13B大模型时报错EI0002: The wait execution of the Notify register times out. Reason: The Notify register has not received the Notify record from remote rank [1].base information: [streamID:[153], taskID[19], taskType[Notify Wait], tag[HcomAllReduce_5871863451775290338_0].] task information: [notify id:[0x00000000000001c8], stage:[ffffffff], remote rank:[1].]

ms版本:1.9.0

开源代码路径:https://gitee.com/mindspore/mindformers/tree/dev

原因分析

每个NPU的训练样本的数量是不一致的。

集群中某些NPU的执行速度太慢,无法在超时间隔内完成通信操作。

在集群中的某些NPU的执行过程中发生了异常。

排查方法

1.确认每个NPU上训练样本数是否一致;

2.打印HCCL_EXEC_TIMEOUT值,确认是否很小;

3.执行npu-smi info,看NPU是否正常;

解决措施

增加了环境变量HCCL_EXEC_TIMEOUT=7200

本页内容