大规模集群场景HCCP报errno 24
问题现象
大规模集群场景执行HCCL Test测试工具,HCCP报“errno:24”的错误,错误示例如下所示,但是拆分成小规模集群分别测试正常。
1 2 3 | [ERROR] HCCP(2726987,all_reduce_test)):2024-01-12-17:52:59.187.615 [rs_socket.c:570]tid:2727604,rs_epoll_even_listen_in_handle(570) : IP:*.*.*.* accept()failed!errno:24 [ERROR] HCCP(2726987,all_reduce_test)):2024-01-12-17:52:59.187.615 [rs_socket.c:570]tid:2727604,rs_epoll_even_listen_in_handle(570) : IP:*.*.*.* accept() failed!errno:24 |
执行“ulimit -a”命令查询“open files”的值(默认为1024),而测试卡数的规模接近open files的值。
原因分析
open files太小,测试卡数规模接近open files,导致测试报错。
解决步骤
修改所有机器(包括裸机、镜像环境)的open files大小,建议配置为1000000,配置方法如下:
echo "ulimit -n 1000000">> /etc/profile source /etc/profile
执行“cat/proc/<PID>/limits”查看某个进程的soft limit和hard limit限制 ,有可能soft limit少但ulimit -a查出来是很大,该情况open files大小需要同步修改,进程PID可通过npu-smi工具查看。
父主题: HCCL Test常见问题总结