run_model

执行模型，用户需要继承ModelRunner并实现该接口。

该接口会在执行LLMModel.predict时被调用。

run_model(kv_cache: KvCache, input_tensors: Any, **kwargs)

该接口不由用户直接调用，而是作为回调由LLMModel调用。

无

无

父主题： ModelRunner