LLM Engine概述

该手册的接口不再演进，推荐使用《LLM DataDist接口参考（Python）》中的功能。

LLM Engine（large language model Engine），支持推理全量增量分离部署，全量图和增量图一起部署时，会造成计算资源的浪费，原因如下：

全量图计算对算力要求高，大batch下算力bound或导致时延体验下降；同batch内多个inputSeq实际长度不同。
增量图单次计算量小，需要冲高batch提升算力利用率；KV Cache容量需求高；batch内输出长度（迭代次数）不一致。

LLM Engine提供管理图的部署和调度执行功能，根据传入的图是全量图还是增量图来执行对应的部署和调度逻辑。相关接口存放在为：“${install_path}/latest/runtime/include/ge/llm_engine.h”、“${install_path}/latest/runtime/include/ge/llm_engine_types.h”l和“${install_path}/latest/runtime/include/ge/llm_error_codes.h”。其中${install_path}为runtime安装路径，root用户的默认路径是“/usr/local/Ascend”。

支持的产品形态：Atlas A2训练系列产品/Atlas 800I A2推理产品。