文档
注册

已知问题

ARM+新D卡环境,VA容器有大量coredump文件

问题描述

条件:IVS使用昇腾的310/310P卡在容器内执行自研的视频解析、人脸识别业务

现象:IVS执行业务概率出现Core Dump

影响:IVS单点问题,目前已定位是glibc的问题

规避和应急措施

用户可以通过设置环境变量的方式改变malloc的行为来规避:

export GLIBC_TUNABLES=glibc.malloc.tcache_count=0

影响域

使用glibc 2.28版本的环境

解决进展

目前定位是glibc问题,后续升级至glibc 2.29即可解决

模型推理性能与非算力切分场景下相比,劣化20%到40%不等

问题描述

条件:310P环境下算力切分场景执行resnet101、bert、Resnet50和lstm模型推理(ResNet101、ResNet50和Bert模型性能劣化,是由于L2Cache冲突导致)

现象:性能与非算力切分场景下相比,劣化20%到40%不等

影响:310P算力切分场景下推理性能

规避和应急措施

避免多个VF并行运行

影响域

CANN 6.3.RC1版本

解决进展

已定位是由于DMA带宽非物理隔离,多VF同时发起DMA拷贝,相互影响,后续版本将解决

训练性能劣化10%左右

问题描述

条件:910环境下算力切分场景执行resnet101模型训练

现象:训练性能劣化10%左右

影响:910算力切分场景下训练性能

规避和应急措施

影响域

CANN 6.3.RC1版本

解决进展

Conv2D算子性能劣化,导致整网性能劣化,后续版本将解决

LSTM模型1P训练失败

问题描述

条件:910环境下算力切分场景执行LSTM模型1P训练

现象:LSTM模型1P训练失败

影响:910算力切分场景下LSTM训练功能

规避和应急措施

影响域

CANN 6.3.RC1版本

解决进展

后续版本将解决

PyTorch数据类型支持限制

问题描述

条件:在NPU上进行模型计算

现象:模型计算过程中,NPU不支持float16类型的inf/nan数据输入输出

影响:NPU上模型计算过程中的数据类型

规避和应急措施

影响域

FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本

解决进展

后续版本将解决

PyTorch数据Format限制

问题描述

条件:在NPU上进行模型计算

现象:出现4D以上的format时不能降维

影响:NPU上模型计算过程中的数据Format

规避和应急措施

影响域

FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本

解决进展

后续版本将解决

PyTorch集合通信约束

问题描述

条件:NPU上的集合通信场景

现象

  1. 要求一次训练任务中不同device上执行的图相同
  2. 当前只支持1/2/4/8P粒度的分配
  3. 只支持int8,int32,float16和float32数据类型

影响:NPU集合通信场景下的使用

规避和应急措施

影响域

FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本

解决进展

后续版本将解决

PyTorch APEX功能支持限制

问题描述

条件:在PyTorch混合精度计算中使用APEX

现象:APEX当前版本的实现方式主要为Python实现,不支持APEX中的自定义优化CUDA Kernel

影响:不支持APEX中的自定义优化CUDA Kernel

规避和应急措施

影响域

FrameworkPTAdapter 5.0.RC1版本、CANN 6.3.RC1版本

解决进展

后续版本将解决

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词