RunDecoder

执行增量图。

ge::Status RunDecoder(const LLMReq &req, const std::vector<ge::Tensor> &inputs, std::vector<ge::Tensor> &output);

参数名	输入/输出	描述
req	输入	当前执行的请求。类型LLMReq。
inputs	输入	计算图输入Tensor，为Host上分配的内存空间
output	输出	计算图输出Tensor，用户无需分配内存空间，执行完成后GE会分配内存并赋值。

模型执行成功

无。

必须先做初始化和linkclusters后才能调用。

只能在LLM_OPTION_ROLE为Decoder的时候调用并且在LLM_OPTION_BATCH_MODE为auto的时候调用，否则会报错。

父主题： LLMEngine