下载
中文
注册

特性概述

表1 特性介绍

特性

说明

Multi-Lora

使用Multi-Lora来执行基础模型和不同的LoRA权重进行推理,其特性介绍详情请参见Multi-Lora

多模态理解

多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型。其特性介绍详情请参见多模态理解

Function Call

支持Function Call函数调用,使大模型具备使用工具能力。其特性介绍详情请参见Function Call

Splitfuse

将长提示词分解成更小的块,并在多个forward step中进行调度,降低Prefill时延。其特性介绍详情请参见Splitfuse

Prefix Cache

复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。其特性介绍详情请参见Prefix Cache

分布式多机部署

对于超大模型,单机推理无法容纳整个模型权重参数,因此需要多台推理机协同工作,共同完成整个模型的推理,其特性介绍详情请参见分布式多机部署

PD分离部署

模型推理的Prefill阶段和Decode阶段分别实例化部署在不同的机器资源上同时进行推理,提升推理性能,其特性介绍详情请参见PD分离部署

模型量化

其特性介绍详情请参见模型量化