单机多卡训练出现“the TLS switch is inconsistent”报错
2024/02/20
243
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | HCCL | TLS switch、inconsistent |
问题现象描述
跑训练时卡住,查看plog日志,报错“[ERROR] HCCP(*hccp_service.bin) err msg error:**SSL routines:ssl3_get_record:wrong version number, The possible cause is that the TLS switch is inconsistent”,如下图1 报错信息所示。
原因分析
TLS开关不一致。
解决措施
将TLS开关配置成一样的,在机器执行。
for i in {0..15}; do hccn_tool -i $i -tls -s enable 0; done
本页内容