下载
中文
注册
运行GPT-3模型时,出现Megatron requires CUDA的报错提示

运行GPT-3模型时,出现Megatron requires CUDA的报错提示

2025/01/26

35

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方集群调度断点续训GPT-3、megatron_npu包

问题现象描述

运行GPT-3模型(PyTorch)时,出现Megatron requires CUDA的报错提示。

原因分析

CUDA是GPU的驱动,在NPU环境上跑GPT-3模型,出现Megatron requires CUDA的错误提示,有以下原因:

  • 当前训练环境没有安装megatron_npu(megaton框架对NPU设备的适配包)。
  • 有安装megatron_npu,但是PyTorch的dist-packages下面没有megatron_npu包,训练程序运行时找不到megatron_npu包的路径。

可执行pip list | grep -i megatron_npu命令,查看当前环境是否有安装megatron_npu包。

解决措施

  • 没有安装megatron_npu。
    1. 执行以下命令,拉取megatron_npu源码
      git clone https://gitee.com/ascend/Megatron-LM.git megatron_npu
    2. 依次执行以下命令,安装megatron_npu。
      cd megatron_npu
      pip install -e .
  • 已经安装megatron_npu,需要配置megatron_npu包路径,选择以下两种方式之一进行操作。
    • 在shell环境的PYTHONPATH环境变量中,指定megatron_npu包路径。
      export PYTHONPATH=megatron_npu包绝对路径:$PYTHONPATH
    • 在Dockerfile文件的PYTHONPATH环境变量中,指定megatron_npu包路径。
      ENV PYTHONPATH=megatron_npu包绝对路径:$PYTHONPATH

本页内容