运行GPT-3模型时,出现Megatron requires CUDA的报错提示
2025/01/26
35
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 集群调度 | 断点续训 | GPT-3、megatron_npu包 |
问题现象描述
运行GPT-3模型(PyTorch)时,出现Megatron requires CUDA的报错提示。
原因分析
CUDA是GPU的驱动,在NPU环境上跑GPT-3模型,出现Megatron requires CUDA的错误提示,有以下原因:
- 当前训练环境没有安装megatron_npu(megaton框架对NPU设备的适配包)。
- 有安装megatron_npu,但是PyTorch的dist-packages下面没有megatron_npu包,训练程序运行时找不到megatron_npu包的路径。

可执行pip list | grep -i megatron_npu命令,查看当前环境是否有安装megatron_npu包。
解决措施
- 没有安装megatron_npu。
- 执行以下命令,拉取megatron_npu源码
git clone https://gitee.com/ascend/Megatron-LM.git megatron_npu
- 依次执行以下命令,安装megatron_npu。
cd megatron_npu pip install -e .
- 执行以下命令,拉取megatron_npu源码
- 已经安装megatron_npu,需要配置megatron_npu包路径,选择以下两种方式之一进行操作。
- 在shell环境的PYTHONPATH环境变量中,指定megatron_npu包路径。
export PYTHONPATH=megatron_npu包绝对路径:$PYTHONPATH
- 在Dockerfile文件的PYTHONPATH环境变量中,指定megatron_npu包路径。
ENV PYTHONPATH=megatron_npu包绝对路径:$PYTHONPATH
- 在shell环境的PYTHONPATH环境变量中,指定megatron_npu包路径。
本页内容