分布式训练简介
开发者跨多个进程执行分布式训练时,首先需要配置参与分布式训练的昇腾AI处理器的资源信息,然后再拉起训练进程。
当前有两种配置资源信息的方式,开发者可以选择其中任一方式,但需要注意两种方式不能混合使用。
- 通过配置文件的方式,此资源配置文件称为ranktable文件,并配合环境变量RANK_TABLE_FILE、RANK_ID等使用。
此种方式下配置资源信息、拉起训练进程的详细说明可参见训练执行(配置文件方式设置资源信息)。
- 通过环境变量的方式。
此种方式下配置资源信息、拉起训练进程的详细说明可参见训练执行(环境变量方式设置资源信息)。
父主题: 执行分布式训练