迁移总体思路

通用模型迁移适配方法，可以分为四个阶段：迁移分析、迁移适配、精度调试与性能调优，总体流程如下图所示。

本手册的内容是根据迁移阶段与其对应任务设计的，如表1所示。

表1 迁移阶段任务表
迁移阶段	迁移任务	任务描述
迁移分析	模型选取与约束说明	调研业务需求场景，参考模型选取选取主流仓库模型。保证选取的模型在第三方平台（如GPU）可成功运行。明确迁移前模型运行的硬件型号、精度、性能基线。从权威网站或数据平台获取源模型的性能值基线，或在三方平台实测性能基线。
迁移分析	迁移支持度分析	准备NPU环境，获取模型的源码、权重和数据集等文件。使用迁移分析工具采集目标网络中的模型/算子清单，识别第三方库及目标网络中算子支持情况，分析模型迁移的可行性。模型迁移需要符合模型选取与约束说明（必读）。算子开发与适配：在迁移支持度分析中如果存在平台未支持的算子，可通过修改模型脚本，使用等价支持的算子替换的方式解决，或者参考《套件与三方库支持清单》中的“单算子适配OpPlugin插件开发”章节进行算子适配，也可联系华为工程师提出开发适配诉求。
迁移适配	模型脚本迁移	通过模型脚本迁移，实现GPU -> NPU的接口替换、NPU分布式框架改造。
	环境变量和脚本配置	参考环境变量配置，配置训练相关环境变量，以保证模型训练可以在昇腾NPU上正常运行。参考模型脚本与启动脚本配置，根据实际场景选择相应操作完成模型脚本和启动脚本配置。
	关键特性适配	数据类型为BF16或FP32的模型训练过程中出现的收敛异常，可参考特征值检测开启特征值检测，用于检测在训练过程中的梯度特征值是否存在异常。在训练时如需混合使用单精度（float32）与半精度(float16)数据类型，可参考（可选）混合精度适配。
	模型调试	迁移适配过程中，如果遇到问题，可以通过模型调试定位问题发生的代码位置。常见问题发生场景包括环境配置，脚本配置，硬件配置与集群配置问题，可从以上场景角度排查问题。
	模型保存与导出	参考模型保存与导出，保存模型文件用于在线推理，使用模型文件导出ONNX模型通过ATC工具将其转换为适配昇腾AI处理器的.om文件用于离线推理。
精度调试	精度分析与调优	训练过程中的模型精度问题分析，及时处理训练不稳定问题。分析评价集loss/ppl和模型下游评测任务得分，评估迁移前后的精度差异。确保迁移前后模型精度差异在可接受范围之内，数据无异常溢出；如果出现精度相关问题，需要借助精度问题分析工具分析。
性能调优	性能数据采集与评测	在NPU环境上，使用性能调优工具介绍对模型进行性能拆解。基于性能拆解得到的数据，分析瓶颈模块，模块分类参考性能概念，明确性能优化方向。
性能调优	模型性能优化实施	依据性能瓶颈模块的类型，从性能调优方法寻求优化方法，具体方法包括数据加载加速、模型代码亲和适配、内存优化、融合算子、融合优化器。此外，本章节提供了通信优化的建议和可以使能的通信算法。