下载
中文
注册
CTyunOS(基于openEuler20.03 自研OS)进行训练时,单卡、8卡训练性能很慢

CTyunOS(基于openEuler20.03 自研OS)进行训练时,单卡、8卡训练性能很慢

2024/02/21

123

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练PyTorch--

问题现象描述

POC测试时进行Bert_Chinese模型训练,耗时需8个小时,而其他OS测试,耗时约1个小时。

Bert_Chinese模型请参见https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/PyTorch/built-in/nlp/Bert_Chinese_ID3433_for_PyTorch

原因分析

openeuler上一个性能优化环境变量引入(默认存在),该环境变量会导致python进程全都跑在cpu 0核上,可检查系统上是否有该环境变量导致训练性能劣化。

解决措施

需要unset掉该环境变量,注释掉该变量,训练时长恢复正常。

本页内容