参考Triton格式,自定义的slot统计信息查询接口。
操作类型:GET
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/getSlotCount
无
[/versions/${MODEL_VERSION}]字段暂不支持,不传递。
请求样例:
GET https://<ip>:<port>/v2/models/llama_65b/getSlotCount
响应样例:
{ "total_slots": 50, "free_slots": 50 }
响应状态码:200
返回值 |
类型 |
说明 |
---|---|---|
total_slots |
int |
推理服务支持的最大batch_size,取值为配置文件中maxBatchSize字段。当前未统计该数据,返回null。 |
free_slots |
int |
当前剩余slots字段,通过调度模块管理的参数获取。当前未统计该数据,返回null。 |