文档
注册

LLM Engine概述

该手册的接口不再演进,推荐使用LLM DataDist接口参考(Python)中的功能。

LLM Engine(large language model Engine),支持推理全量增量分离部署,全量图和增量图一起部署时,会造成计算资源的浪费,原因如下:

  • 全量图计算对算力要求高,大batch下算力bound或导致时延体验下降;同batch内多个inputSeq实际长度不同。
  • 增量图单次计算量小,需要冲高batch提升算力利用率;KV Cache容量需求高;batch内输出长度(迭代次数)不一致。

LLM Engine提供管理图的部署和调度执行功能,根据传入的图是全量图还是增量图来执行对应的部署和调度逻辑。相关接口存放在为:“${install_path}/latest/runtime/include/ge/llm_engine.h”“${install_path}/latest/runtime/include/ge/llm_engine_types.h”l和“${install_path}/latest/runtime/include/ge/llm_error_codes.h”。其中${install_path}为runtime安装路径,root用户的默认路径是“/usr/local/Ascend”

支持的产品形态:Atlas A2训练系列产品/Atlas 800I A2推理产品

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词