下载
中文
注册

大规模集群场景HCCP报errno 24

问题现象

大规模集群场景执行HCCL Test测试工具,HCCP报“errno:24”的错误,错误示例如下所示,但是拆分成小规模集群分别测试正常。

1
2
3
[ERROR] HCCP2726987,all_reduce_test):2024-01-12-17:52:59.187.615 [rs_socket.c:570]tid:2727604,rs_epoll_even_listen_in_handle(570) : IP:*.*.*.* accept(failed!errno:24
[ERROR] HCCP2726987,all_reduce_test):2024-01-12-17:52:59.187.615 [rs_socket.c:570]tid:2727604,rs_epoll_even_listen_in_handle(570) : IP:*.*.*.* accept(
failed!errno:24

执行“ulimit -a”命令查询“open files”的值(默认为1024),而测试卡数的规模接近open files的值。

原因分析

open files太小,测试卡数规模接近open files,导致测试报错。

解决步骤

修改所有机器(包括裸机、镜像环境)的open files大小,建议配置为1000000,配置方法如下:

echo "ulimit -n 1000000">> /etc/profile
source /etc/profile

执行“cat/proc/<PID>/limits”查看某个进程的soft limit和hard limit限制 ,有可能soft limit少但ulimit -a查出来是很大,该情况open files大小需要同步修改,进程PID可通过npu-smi工具查看。