LLM Engine概述
LLM Engine(large language model Engine),支持推理全量增量分离部署,全量图和增量图一起部署时,会造成计算资源的浪费,原因如下:
- 全量图计算对算力要求高,大batch下算力bound或导致时延体验下降;同batch内多个inputSeq实际长度不同。
- 增量图单次计算量小,需要冲高batch提升算力利用率;KV Cache容量需求高;batch内输出长度(迭代次数)不一致。
LLM Engine提供管理图的部署和调度执行功能,根据传入的图是全量图还是增量图来执行对应的部署和调度逻辑。相关接口存放在为:“${install_path}/latest/runtime/include/ge/llm_engine.h”、“${install_path}/latest/runtime/include/ge/llm_engine_types.h”l和“${install_path}/latest/runtime/include/ge/llm_error_codes.h”。其中${install_path}为runtime安装路径,root用户的默认路径是“/usr/local/Ascend”。
支持的产品形态:Atlas A2训练系列产品/Atlas 800I A2推理产品。