下载
中文
注册

大规模集群场景HCCP报errno 24

问题现象

大规模集群场景测试失败,HCCP报错errno:24,错误截图如下所示,但是拆分成小规模集群分别测试正常。

1
2
3
[ERROR] HCCP2726987,al1_reduce_test):2024-01-12-17:52:59.187.615 [rs_socket.c:570]tid:2727604,rs_epoll_even_listen_in_handle(570) : IP:*.*.*.* accept(failed!errno:24
[ERROR] HCCP2726987,al1_reduce_test):2024-01-12-17:52:59.187.615 [rs_socket.c:570]tid:2727604,rs_epoll_even_listen_in_handle(570) : IP:*.*.*.* accept(
failed!errno:24

执行“ulimit -a”命令查询“open files”的值(默认为1024),而测试卡数的规模接近open files的值。

原因分析

open files太小,测试卡数规模接近open files,导致测试报错

解决步骤

修改所有机器(包括裸机、镜像环境)的open files大小,建议配置为1000000,配置方法如下:

echo “ulimit -n 1000000”>> /etc/profile
source /etc/profile

【解决步骤】

所有机器裸机和docker均修改open files大小,建议配置成1000000,例如:

echo “ulimit -n 1000000”>> /etc/profile
source /etc/profile

执行“cat/proc/<PID>/limits”查看某个进程的soft limit和hard limit限制 ,有可能soft limit少但ulimit -a查出来是很大,PID通过npu-smi看卡的进程PID,该情况需要同步修改。