AOE简介

AOE

AOE（Ascend Optimization Engine）是一款自动调优工具，作用是充分利用有限的硬件资源，以满足算子和整网的性能要求。

AOE通过生成调优策略、编译、在运行环境上验证的闭环反馈机制，不断迭代出更优的调优策略，最终得到最佳的调优策略，从而可以更充分利用硬件资源，不断提升网络的性能，达到最优的效果。

图1 架构

Application层：调优入口，支持如下。
- AOE：这里的AOE表示AOE进程，用于离线推理场景下调优、PyTorch训练场景下调优（单算子模型执行）、PyTorch训练场景下调优（单算子API执行）和IR构图场景下调优，使用方法请参考离线推理场景下调优（其他推理设备）、PyTorch训练场景下调优和IR构图场景下调优。以下章节提到的AOE均指AOE进程。
- TFAdapter（TensorFlow Adapter）：TensorFlow训练场景下调优和TensorFlow在线推理场景下调优，使用方法请参考TensorFlow训练场景下在线调优和TensorFlow在线推理场景下调优。
- PyTorchAdapter（PyTorch Adapter）：PyTorch训练场景下调优和PyTorch在线推理场景下调优，使用方法请参考PyTorch训练场景下调优和PyTorch在线推理场景下调优。
Tuning层：调优模式，支持以下类型。
- 子图调优：通过SGAT（SubGraph Auto Tuning）对子图切分策略进行调优，在运行环境上验证获得真实性能，最终将最优的调优策略固化至模型知识库，并获取优化后的模型。
- 算子调优：通过OPAT（Operator Auto Tuning）对算子进行调优，在运行环境上验证获取真实性能，最终将优选算子调优策略固化到算子知识库。
- 梯度调优：通过GDAT（Gradient Auto Tuning）对梯度allreduce融合策略进行调优，在运行环境上验证获取真实性能，最终得到优选梯度allreduce算子融合策略。
推荐先进行子图调优，再进行算子调优。原因是：先进行子图调优会生成图的切分方式，子图调优后算子已经被切分成最终的shape了，再进行算子调优，会基于这个最终shape去做算子调优。如果优先算子调优，这时调优的算子shape不是最终切分后的算子shape，不符合实际使用场景。
Execute层：为执行层，支持编译（Compiler）和在运行环境上运行（Runner）。