host ip之间两两不通报MPI错误
问题现象
多机场景下,执行HCCL Test测试工具时,报错误:“Fatal error in PMPI_Barrier: Unknown error class, error stack”,如下图所示。
原因分析
HCCL Test测试场景,要求所有机器的Host网卡两两ping通,此问题一般是由于某台机器的Host IP与其他机器网络不通导致。
解决步骤
- 定位到网络不通的Host机器。
可通过二分的方法,逐步添加机器进行测试,当添加到某台机器报错时,可登录此机器,然后ping其他机器的Host IP,若不通,即确认是此机器网络原因。
- 解决此机器与其他机器的Host IP无法ping通的问题。
父主题: HCCL Test常见问题总结