Slot统计接口
接口功能
参考Triton格式,自定义的slot统计信息查询接口。
接口格式
操作类型:GET
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/getSlotCount

- {ip}字段优先读取环境变量值MIES_CONTAINER_MANAGEMENT_IP;如果没有该环境变量,则取配置文件的“managementIpAddress”参数;如果配置文件中没有“managementIpAddress”参数,则取配置文件的“ipAddress”参数。
- {port}字段优先读取配置文件的“managementPort”参数;如果配置文件中没有“managementPort”参数,则取配置文件的“port”参数。
- ${MODEL_NAME}字段指定需要查询的模型名称。
- [/versions/${MODEL_VERSION}]字段暂不支持,不传递。
请求参数
无
使用样例
请求样例:
GET https://{ip}:{port}/v2/models/llama_65b/getSlotCount
响应样例:
{ "total_slots": 50, "free_slots": 50, "available_tokens_length": 30720 }
响应状态码:200
输出说明
返回值 |
类型 |
说明 |
---|---|---|
total_slots |
int |
推理服务支持的最大batch_size,取值为配置文件中maxBatchSize字段。 |
free_slots |
int |
当前剩余slots字段,通过调度模块管理的参数获取。 |
available_tokens_length |
int |
KV Cache剩余的可放token数。 |
父主题: MindIE原生接口