CTyunOS(基于openEuler20.03 自研OS)进行训练时,单卡、8卡训练性能很慢
2024/02/21
123
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | PyTorch | -- |
问题现象描述
POC测试时进行Bert_Chinese模型训练,耗时需8个小时,而其他OS测试,耗时约1个小时。
Bert_Chinese模型请参见https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/PyTorch/built-in/nlp/Bert_Chinese_ID3433_for_PyTorch。
原因分析
openeuler上一个性能优化环境变量引入(默认存在),该环境变量会导致python进程全都跑在cpu 0核上,可检查系统上是否有该环境变量导致训练性能劣化。
解决措施
需要unset掉该环境变量,注释掉该变量,训练时长恢复正常。
本页内容