下载
中文
注册

执行分布式训练时,出现get rank id error错误

问题现象

屏显信息出现“get rank id error”的错误,如下所示:

查看Host日志,出现“Call hcom_bind_model failed”的错误信息,如下所示:

原因分析

集合通信的管理类python接口需要在完成集合通信初始化之后调用,才能正常执行。

解决方法

训练脚本中,在完成集合通信初始化后再调用集合通信的管理类python接口,集合通信初始化详细描述可参见集合通信初始化