执行PyTorch框架的训练任务时,提示找不到amp_C
2025/01/26
25
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 集群调度 | 断点续训 | amp_C、megatron_npu、PyTorch |
问题现象描述
开启watchdog功能后,下发PyTorch框架的训练任务,报错提示找不到amp_C。
原因分析
镜像中找不到megatron_npu路径。
解决措施
在train_start.sh中新增以下加粗的环境变量,设置megatron_npu在Python中的环境变量。
... # env for breakpoint ckpt export RESUME_MODE_ENABLE=1 export PYTHONPATH=$PYTHONPATH:MEGATRON_LM的路径/megatron_npu
本页内容