功能介绍

面向通用模型的推理服务化场景，实现开放、可扩展的推理服务化平台架构，支持对接业界主流推理框架接口，满足大语言模型、文生图等多类型模型的高性能推理需求。主要包括以下特性：

服务启动：Daemon负责推理服务启动，加载配置文件，初始化其他模块。
北向接口：ServerEndpoint面向推理服务开发者（包括华为研发和合作伙伴及有开发能力的用户）提供极简易用的API接口，支持TGI、vLLM、OpenAI等主流推理框架请求接口。
统一推理API：统一推理API提供模型初始化、推理请求处理、服务/模型信息查询接口，ServerEndpoint和其他三方框架调用统一推理API使能推理服务。
推理服务化平台：GMIS模块支持推理流程的工作流定义扩展，以工作流为驱动，实现从推理任务调度到任务执行的可扩展架构，适应各类推理方法如投机推理、LoRA推理、LLMA、Prompt增强等的快速落地。
南向接口：ModelWrapper模块面向不同推理引擎，不同模型，提供统一抽象接口，便于扩展，减少推理引擎、模型变化带来的修改。

父主题： MindIE Server