mbuf入队场景出现OOM报错

适用场景

现象描述

执行训练模型脚本过程中出现如下报错:

Error Message is
EL0004: Failed to allocate memory.
Possible Cause: Available memory is insufficient.
Solution: Close applications not in use.
TraceBack (most recent call last):
rtMemQueueEnQueueBuff execute failed, reason=[driver error:out of memory][FUNC:FuncErrorReason][FILE:error_message_manage.cc][LINE:49]
Fail to execute acltdtSendTensor, device is 0, name is 9238275185956894463[FUNC:ReportInnerError][FILE:log_inner.cpp][LINE:145]

可能原因

其他业务同步执行导致可用内存不足。

处理步骤

针对内存不足情况,可以参考以下步骤处理:

  1. 检查环境上业务同步执行情况,关闭其他暂无关业务。
  2. 检查脚本中内存申请相关设置,确认是否batch_size等参数导致需要申请的内存过大导致申请失败,可适当调整参数。