run_model 函数功能执行模型,用户需要继承ModelRunner并实现该接口。 该接口会在执行LLMModel.predict时被调用。 函数原型run_model(kv_cache: KvCache, input_tensors: Any, **kwargs) 参数说明 参数名称 数据类型 取值说明 kv_cache KvCache KvCache。 input_tensors Any 输入,由LLMModel.predict接口传入。 kwargs Optional[Dict] 可选参数,由LLMModel.predict接口传入。 调用示例该接口不由用户直接调用,而是作为回调由LLMModel调用。 返回值无 约束说明无 父主题: ModelRunner