总体思路
PyTorch训练场景的精度问题分析可以参考以下思路进行精度比对和比对结果分析:
- 溢出检测:参考溢出检测使用指南,进行全量溢出检测。若发现API溢出问题,则对具体发生溢出的API进行ACL级别的输入输出dump,分析发生溢出的算子,定位精度问题并尝试解决,可联系华为工程师求助。完成溢出检测后,再继续进行整网数据dump比对。
- 整网数据dump比对:参考数据dump比对使用指南,dump整网数据并进行精度比对。
- 定位问题范围:检查比对结果,根据余弦相似度和最大绝对误差标准,找出第一个不符合精度标准的API。
- 定位问题API:针对不符合精度标准的可能问题API,进行更细粒度的dump,例如缩小dump范围并进行API堆栈信息的dump。
- 分析原因并优化:分析API精度不符合标准的原因并进行优化调整,可联系华为工程师求助。
- 重复步骤2到步骤5,直到解决所有精度有问题的API。
父主题: 精度调优