关闭memory_optimization后发生core dump
2022/10/11
114
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | TensorFlow | 多P场景、core dump |
问题现象描述
关闭优化器执行迁移导致TensorFlow core dump。
原因分析
多p场景下,memory_optimization在NPU上执行可能会出现问题,因此迁移时要求关闭,使用NPU的内存优化逻辑。
无论优化器开启或关闭,TensorFlow原生代码都应该保证网络正常进行。但关闭后导致TensorFlow core dump,因此是TensorFlow自身问题导致。
解决措施
如果出现上述错误,建议用户注释如下代码开启开关:
config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF #这个注释
本页内容