特性概述
特性 |
说明 |
---|---|
Multi-Lora |
使用Multi-Lora来执行基础模型和不同的LoRA权重进行推理,其特性介绍详情请参见Multi-Lora。 |
多模态理解 |
多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型。其特性介绍详情请参见多模态理解。 |
Function Call |
支持Function Call函数调用,使大模型具备使用工具能力。其特性介绍详情请参见Function Call。 |
Splitfuse |
将长提示词分解成更小的块,并在多个forward step中进行调度,降低Prefill时延。其特性介绍详情请参见Splitfuse。 |
Prefix Cache |
复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。其特性介绍详情请参见Prefix Cache。 |
分布式多机部署 |
对于超大模型,单机推理无法容纳整个模型权重参数,因此需要多台推理机协同工作,共同完成整个模型的推理,其特性介绍详情请参见分布式多机部署。 |
PD分离部署 |
模型推理的Prefill阶段和Decode阶段分别实例化部署在不同的机器资源上同时进行推理,提升推理性能,其特性介绍详情请参见PD分离部署。 |
模型量化 |
其特性介绍详情请参见模型量化。 |
父主题: 关键特性