在计算节点安装MindIO TTP SDK
在大模型训练框架使用的Python环境中,安装MindIO TTP SDK,使能训练任务故障后,训练框架能够生产临终CheckPoint数据,加速训练恢复。
操作步骤
- 以安装用户{MindIO-install-user}登录安装节点。
- 将软件包Ascend-mindxdl-mindio_{version}_linux-{arch}.zip上传至设备上安装用户有权限读写的路径下。
- Ascend-mindxdl-mindio_{version}_linux-{arch}.zip以获取的实际包名为准。
- 如果Python环境是共享目录,则在任一计算节点上传即可,否则所有计算节点都需要上传安装包。
- 进入软件包上传路径,解压软件包。
unzip Ascend-mindxdl-mindio_{version}_linux-{arch}.zip
表1 解压后内层目录结构 目录
目录内文件
说明
install
hand_out_deploy.py
安装工具脚本。
host_ip_list
IP地址配置文件。
memfs.conf
MindIO配置文件。
scp_file.sh
scp命令执行文件。
ssh_cmd.sh
ssh命令执行文件。
Ascend-mindxdl-mindio_{version}_linux-{arch}.tar
-
Ascend-mindxdl-mindio软件安装包。
mindio_ttp-{mindio_ttp_version}-cp37-cp37m-linux_{arch}.whl
-
MindIO TTP安装包。
mindio_ttp-{mindio_ttp_version}-cp38-cp38-linux_{arch}.whl
mindio_ttp-{mindio_ttp_version}-cp39-cp39-linux_{arch}.whl
mindio_ttp-{mindio_ttp_version}-cp310-cp310-linux_{arch}.whl
- 进入上传路径,执行以下命令,安装MindIO SDK。此处以mindio_ttp-{mindio_ttp_version}-cp37-cp37m-linux_{arch}.whl为例,请根据实际情况进行选择。
pip3 install mindio_ttp-{mindio_ttp_version}-cp37-cp37m-linux_{arch}.whl --force-reinstall
- 首次安装MindIO SDK回显如下,表示安装成功。
Processing ./mindio_ttp-{mindio_ttp_version}-cp37-cp37m-linux_{arch}.whl Installing collected packages: mindio_ttp Successfully installed mindio_ttp-{mindio_ttp_version}
- 非首次安装MindIO SDK回显如下,表示安装成功。
Processing ./mindio_ttp-{mindio_ttp_version}-cp37-cp37m-linux_{arch}.whl Installing collected packages: mindio_ttp Found existing installation: mindio_ttp {mindio_ttp_version} Uninstalling mindio_ttp-{version}: Successfully uninstalled mindio_ttp-{mindio_ttp_version} Successfully installed mindio_ttp-{mindio_ttp_version}
- 首次安装MindIO SDK回显如下,表示安装成功。
父主题: 安装部署