功能介绍
面向通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型、文生图等多类型模型的高性能推理需求。主要包括以下特性:
- 服务启动:Daemon负责推理服务启动,加载配置文件,初始化其他模块。
- 北向接口:ServerEndpoint面向推理服务开发者(包括华为研发和合作伙伴及有开发能力的用户)提供极简易用的API接口,支持TGI、vLLM、OpenAI等主流推理框架请求接口。
- 统一推理API:统一推理API提供模型初始化、推理请求处理、服务/模型信息查询接口,ServerEndpoint和其他三方框架调用统一推理API使能推理服务。
- 推理服务化平台:GMIS模块支持推理流程的工作流定义扩展,以工作流为驱动,实现从推理任务调度到任务执行的可扩展架构,适应各类推理方法如投机推理、LoRA推理、LLMA、Prompt增强等的快速落地。
- 南向接口:ModelWrapper模块面向不同推理引擎,不同模型,提供统一抽象接口,便于扩展,减少推理引擎、模型变化带来的修改。
父主题: MindIE Server