Atlas系列硬件: Atlas 200l DK A2 开发者套件; Atlas 200l DK 开发者套件（型号：3000）; 加速模块、加速卡、智能小站、服务器、集群

异构计算架构: CANN社区版; CANN商用版

AI框架: MindSpore; TensorFlow框架模型（社区版）; TensorFlow框架模型（商用版）; PyTorch框架适配

昇腾推理引擎: MindIE

应用使能MindX: MindX DL; MindX Edge; MindX SDK

全流程开发工具: MindStudio

已知问题

ARM+新D卡环境，VA容器有大量coredump文件

问题描述	条件：IVS使用昇腾的310/310P卡在容器内执行自研的视频解析、人脸识别业务现象：IVS执行业务概率出现Core Dump 影响：IVS单点问题，目前已定位是glibc的问题
规避和应急措施	用户可以通过设置环境变量的方式改变malloc的行为来规避： export GLIBC_TUNABLES=glibc.malloc.tcache_count=0
影响域	使用glibc 2.28版本的环境
解决进展	目前定位是glibc问题，后续升级至glibc 2.29即可解决

模型推理性能与非算力切分场景下相比，劣化20%到40%不等

问题描述	条件：310P环境下算力切分场景执行resnet101、bert、Resnet50和lstm模型推理（ResNet101、ResNet50和Bert模型性能劣化，是由于L2Cache冲突导致）现象：性能与非算力切分场景下相比，劣化20%到40%不等影响：310P算力切分场景下推理性能
规避和应急措施	避免多个VF并行运行
影响域	CANN 6.3.RC1版本
解决进展	已定位是由于DMA带宽非物理隔离，多VF同时发起DMA拷贝，相互影响，后续版本将解决

训练性能劣化10%左右

问题描述	条件：910环境下算力切分场景执行resnet101模型训练现象：训练性能劣化10%左右影响：910算力切分场景下训练性能
规避和应急措施	无
影响域	CANN 6.3.RC1版本
解决进展	Conv2D算子性能劣化，导致整网性能劣化，后续版本将解决

LSTM模型1P训练失败

问题描述	条件：910环境下算力切分场景执行LSTM模型1P训练现象：LSTM模型1P训练失败影响：910算力切分场景下LSTM训练功能
规避和应急措施	无
影响域	CANN 6.3.RC1版本
解决进展	后续版本将解决

PyTorch数据类型支持限制

问题描述	条件：在NPU上进行模型计算现象：模型计算过程中，NPU不支持float16类型的inf/nan数据输入输出影响：NPU上模型计算过程中的数据类型
规避和应急措施	无
影响域	FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本
解决进展	后续版本将解决

PyTorch数据Format限制

问题描述	条件：在NPU上进行模型计算现象：出现4D以上的format时不能降维影响：NPU上模型计算过程中的数据Format
规避和应急措施	无
影响域	FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本
解决进展	后续版本将解决

PyTorch集合通信约束

问题描述	条件：NPU上的集合通信场景现象：要求一次训练任务中不同device上执行的图相同当前只支持1/2/4/8P粒度的分配只支持int8，int32，float16和float32数据类型影响：NPU集合通信场景下的使用
规避和应急措施	无
影响域	FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本
解决进展	后续版本将解决

PyTorch APEX功能支持限制

问题描述	条件：在PyTorch混合精度计算中使用APEX 现象：APEX当前版本的实现方式主要为Python实现，不支持APEX中的自定义优化CUDA Kernel 影响：不支持APEX中的自定义优化CUDA Kernel
规避和应急措施	无
影响域	FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本
解决进展	后续版本将解决

父主题： 已知问题和已修复问题