术语&缩略语

术语/缩略语

含义

LLM

Large Language Model,大语言模型。

TGI

Text Generation Inference,文本生成推理。是一个用于部署和服务大型语言模型的工具包。TGI为最流行的开源LLM提供高性能文本生成,包括Llama、Falcon、StarCoder、BLOOM、GPT-NeoX等。

vLLM

vLLM是一个开源的大模型推理加速框架。

Trition

Triton是一个开源的推理服务软件,全称为Triton Inference Server。通过Triton,您可以在基于GPU或CPU的各种基础架构(云、数据中心或边缘)上部署、运行和扩展来自任何框架的AI模型。

CB

Continuous Batching,连续批处理。

PA

Paged Attention,PA是一种用于处理长序列数据的注意力机制。

RoCE

RDMA over Converged Ethernet,RoCE是一种网络协议,允许通过以太网使用远程直接内存访问(RDMA)。目前存在两个RoCE版本,分别是RoCE v1和v2。RoCE v1是数据链路层协议,允许在同一个以太网广播域内的任意两台主机之间通信。RoCE v2是网络层协议,其报文可以被路由。

GMIS

General Model Inference Scheduler,是一个用于模型推理的调度器。它在大型模型训练中起着关键作用,旨在减少计算资源的空闲时间,提高计算资源的利用率,从而加快模型训练和模型推理的进度模型推理调度器,提供各种模型调度能力。

Daemon

Daemon(守护进程)是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。它不需要用户输入就能运行,同时提供某种服务,不仅对整个系统,还可以对某个用户程序提供服务。

EndPoint

推理服务化协议和接口封装,兼容Triton/OpenAI/TGI/vLLM等第三方框架接口。

KMC

Key Management Center,密钥管理系统。用于管理和保护加密算法中使用的密钥。它可以为企业或组织提供安全的密钥存储、密钥分发、密钥轮换、密钥备份和密钥恢复等功能。KMC秘钥库可以确保密钥的安全性和可靠性,防止密钥泄露、丢失或被篡改。同时,KMC秘钥库还可以支持多种加密算法和密钥长度,满足不同应用场景的需求。

GRPC

Google Remote Procedure Call,Google远程过程调用协议。

GCC

GNU Compiler Collection,GNU编译器集。

业务面

MindIE Server推理等业务接口所处的平面,在通信矩阵体现为数据面。

管理面

MindIE Server健康状态信息接口所处的平面。