文档
注册

on_cache_allocated

函数功能

ModelRunner关联的Decoder LLMModel分配了KvCache后回调。

由于Decoder每次推理都使用相同的KvCache, 所以可以通过该回调提前准备KvCache对应的Tensor,避免重复转换,从而提升性能。

默认实现为空。

函数原型

on_cache_allocated(kv_cache: KvCache)

参数说明

参数名称

数据类型

取值说明

kv_cache

KvCache

KvCache。

调用示例

该接口不由用户直接调用,而是作为回调由LLMModel调用。

返回值

约束说明

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词