设备device侧内存不足导致片上内存压测失败
2025/01/21
35
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 性能测试 | 故障诊断 | MindCluster ToolBox、片上内存、内存、Ascend DMI |
问题现象
Ascend DMI工具执行片上内存压力测试失败,提示Error occurred in HBM stress test on device 0, 日志报错aclrtMalloc failed, error code: 207001。
/var/log/ascend-dmi/ascend-dmi.log中打印:
可能原因
设备内存不足或设备内存被占用。
解决措施
- 执行npu-smi info查看内存是否被占用,如下即为被占完:
- 等待内存释放或执行如下命令复位芯片释放内存:
npu-smi set -t reset -i $i -c 0 //请将$i替换为指定设备ID
图1 命令示例
本页内容