多机无法拉起DeepSeek-R1模型推理,从节点无法与主节点建立RPC通信
2025/03/04
327
问题信息
问题来源 | 产品大类 | 关键字 |
---|---|---|
现网 | 模型推理 | TLS,HCCL,AllReduce,通信,DeepSeek,推理 |
问题现象描述
多节点部署从节点无法和主机点建立rpc问题,子节点报RPC问题,例如下图:
原因分析
可能是防火墙拦截导致,端口被防火墙拦截。
解决措施
使用指令查看防火墙状态,如果开启防火墙,需要关闭或释放端口;
sudo systemctl status firewalld
本页内容