下载
中文
注册
执行PyTorch框架的训练任务时,提示找不到amp_C

执行PyTorch框架的训练任务时,提示找不到amp_C

2025/01/26

25

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方集群调度断点续训amp_C、megatron_npu、PyTorch

问题现象描述

开启watchdog功能后,下发PyTorch框架的训练任务,报错提示找不到amp_C。

原因分析

镜像中找不到megatron_npu路径。

解决措施

在train_start.sh中新增以下加粗的环境变量,设置megatron_npu在Python中的环境变量。
...
# env for breakpoint ckpt
export RESUME_MODE_ENABLE=1

export PYTHONPATH=$PYTHONPATH:MEGATRON_LM的路径/megatron_npu

本页内容