MindSpore报错Framework ERROR: Init hccl graph adapter failed
2024/02/22
174
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | MindSpore | Framework ERROR |
问题现象描述
MindSpore运行分布式模型时报错:
RuntimeError: Ascend collective communication initialization failed.
Framework Error Message: Init hccl graph adapter failed.
原因分析
Framework Error 报错 Init hccl graph adapter failed,应是cann hccl相关组件报错。
排查方法
1.在/root/ascend/log/plog路径下,输入grep -rn 'ERROR',提取plog下所有文件含[ERROR]的信息。
2.发现fwkacllib加载失败。
解决措施
1. 使用CANN包的环境变量配置脚本。
source set_env.sh
2. 单点添加环境变量。
export LD_LIBRARY_PATH=fwkacllib/lib64:$LD_LIBRRARY_PATH
本页内容