文档
注册

在计算节点安装MindIO TTP SDK

在大模型训练框架使用的Python环境中,安装MindIO TTP SDK,使能训练任务故障后,训练框架能够生产临终CheckPoint数据,加速训练恢复。

操作步骤

  1. 以安装用户{MindIO-install-user}登录安装节点。
  2. 将软件包Ascend-mindxdl-mindio_{version}_linux-{arch}.zip上传至设备上安装用户有权限读写的路径下。
    • Ascend-mindxdl-mindio_{version}_linux-{arch}.zip以获取的实际包名为准。
    • 如果Python环境是共享目录,则在任一计算节点上传即可,否则所有计算节点都需要上传安装包。
  3. 进入软件包上传路径,解压软件包。
    unzip Ascend-mindxdl-mindio_{version}_linux-{arch}.zip
    表1 解压后内层目录结构

    目录

    目录内文件

    说明

    install

    hand_out_deploy.py

    安装工具脚本。

    host_ip_list

    IP地址配置文件。

    memfs.conf

    MindIO配置文件。

    scp_file.sh

    scp命令执行文件。

    ssh_cmd.sh

    ssh命令执行文件。

    Ascend-mindxdl-mindio_{version}_linux-{arch}.tar

    -

    Ascend-mindxdl-mindio软件安装包。

    mindio_ttp-{version}-cp37-cp37m-linux_{arch}.whl

    -

    MindIO TTP安装包。

    mindio_ttp-{version}-cp38-cp38-linux_{arch}.whl

    mindio_ttp-{version}-cp39-cp39-linux_{arch}.whl

    mindio_ttp-{version}-cp310-cp310-linux_{arch}.whl

  4. 进入上传路径,执行以下命令,安装MindIO SDK。
    pip3 install mindio_ttp-{version}-cp37-cp37m-linux_{arch}.whl --force-reinstall
    • 首次安装MindIO SDK回显如下,表示安装成功。
      Processing ./mindio_ttp-{version}-cp37-cp37m-linux_{arch}.whl
      Installing collected packages: mindio_ttp
      Successfully installed mindio_ttp-{version}
    • 非首次安装MindIO SDK回显如下,表示安装成功。
      Processing ./mindio_ttp-{version}-cp37-cp37m-linux_{arch}.whl
       Installing collected packages: mindio_ttp
         Found existing installation: mindio_ttp {version}
           Uninstalling mindio_ttp-{version}:
             Successfully uninstalled mindio_ttp-{version}
       Successfully installed mindio_ttp-{version}
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词