已知问题
ARM+新D卡环境,VA容器有大量coredump文件
问题描述 |
条件:IVS使用昇腾的310/310P卡在容器内执行自研的视频解析、人脸识别业务 现象:IVS执行业务概率出现Core Dump 影响:IVS单点问题,目前已定位是glibc的问题 |
---|---|
规避和应急措施 |
用户可以通过设置环境变量的方式改变malloc的行为来规避: export GLIBC_TUNABLES=glibc.malloc.tcache_count=0 |
影响域 |
使用glibc 2.28版本的环境 |
解决进展 |
目前定位是glibc问题,后续升级至glibc 2.29即可解决 |
模型推理性能与非算力切分场景下相比,劣化20%到40%不等
问题描述 |
条件:310P环境下算力切分场景执行resnet101、bert、Resnet50和lstm模型推理(ResNet101、ResNet50和Bert模型性能劣化,是由于L2Cache冲突导致) 现象:性能与非算力切分场景下相比,劣化20%到40%不等 影响:310P算力切分场景下推理性能 |
---|---|
规避和应急措施 |
避免多个VF并行运行 |
影响域 |
CANN 6.3.RC1版本 |
解决进展 |
已定位是由于DMA带宽非物理隔离,多VF同时发起DMA拷贝,相互影响,后续版本将解决 |
训练性能劣化10%左右
问题描述 |
条件:910环境下算力切分场景执行resnet101模型训练 现象:训练性能劣化10%左右 影响:910算力切分场景下训练性能 |
---|---|
规避和应急措施 |
无 |
影响域 |
CANN 6.3.RC1版本 |
解决进展 |
Conv2D算子性能劣化,导致整网性能劣化,后续版本将解决 |
LSTM模型1P训练失败
问题描述 |
条件:910环境下算力切分场景执行LSTM模型1P训练 现象:LSTM模型1P训练失败 影响:910算力切分场景下LSTM训练功能 |
---|---|
规避和应急措施 |
无 |
影响域 |
CANN 6.3.RC1版本 |
解决进展 |
后续版本将解决 |
PyTorch数据类型支持限制
问题描述 |
条件:在NPU上进行模型计算 现象:模型计算过程中,NPU不支持float16类型的inf/nan数据输入输出 影响:NPU上模型计算过程中的数据类型 |
---|---|
规避和应急措施 |
无 |
影响域 |
FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本 |
解决进展 |
后续版本将解决 |
PyTorch数据Format限制
问题描述 |
条件:在NPU上进行模型计算 现象:出现4D以上的format时不能降维 影响:NPU上模型计算过程中的数据Format |
---|---|
规避和应急措施 |
无 |
影响域 |
FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本 |
解决进展 |
后续版本将解决 |
PyTorch集合通信约束
问题描述 |
条件:NPU上的集合通信场景 现象:
影响:NPU集合通信场景下的使用 |
---|---|
规避和应急措施 |
无 |
影响域 |
FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本 |
解决进展 |
后续版本将解决 |
PyTorch APEX功能支持限制
问题描述 |
条件:在PyTorch混合精度计算中使用APEX 现象:APEX当前版本的实现方式主要为Python实现,不支持APEX中的自定义优化CUDA Kernel 影响:不支持APEX中的自定义优化CUDA Kernel |
---|---|
规避和应急措施 |
无 |
影响域 |
FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本 |
解决进展 |
后续版本将解决 |