在进行大模型调优前,需保证模型当前的shape与micro batch size为亲和数据,并在此基础上优先保证模型的内存占用是否合理。在确保模型shape亲和,且内存占用合理后可继续进行端到端的耗时调优。
业界通用的大模型并行策略同样适用于NPU性能调优,包括模型并行、流水并行、数据并行、序列并行、完全重计算、选择性重计算、ZeRO-1/2/3、ZeRO offload等。这些并行策略和计算策略是业界成熟技术,本手册不再详述。