下载
中文
注册

host ip之间两两不通报MPI错误

问题现象

多机场景下,执行HCCL Test测试工具时,报错误:“Fatal error in PMPI_Barrier: Unknown error class, error stack”,如下图所示。

原因分析

HCCL Test测试场景,要求所有机器的Host网卡两两ping通,此问题一般是由于某台机器的Host IP与其他机器网络不通导致。

解决步骤

  1. 定位到网络不通的Host机器。

    可通过二分的方法,逐步添加机器进行测试,当添加到某台机器报错时,可登录此机器,然后ping其他机器的Host IP,若不通,即确认是此机器网络原因。

  2. 解决此机器与其他机器的Host IP无法ping通的问题。