参考Triton格式,自定义的slot统计信息查询接口。
操作类型:GET
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/getSlotCount
无
请求样例:
GET https://{ip}:{port}/v2/models/llama_65b/getSlotCount
响应样例:
{ "total_slots": 50, "free_slots": 50, "available_tokens_length": 30720 }
响应状态码:200
返回值 |
类型 |
说明 |
---|---|---|
total_slots |
int |
推理服务支持的最大batch_size,取值为配置文件中maxBatchSize字段。 |
free_slots |
int |
当前剩余slots字段,通过调度模块管理的参数获取。 |
available_tokens_length |
int |
KV Cache剩余的可放token数。 |