Slot统计接口

接口功能

参考Triton格式,自定义的slot统计信息查询接口。

接口格式

操作类型:GET

URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/getSlotCount

请求参数

[/versions/${MODEL_VERSION}]字段暂不支持,不传递。

使用样例

请求样例:

GET https://<ip>:<port>/v2/models/llama_65b/getSlotCount

响应样例:

{
 "total_slots": 50,
 "free_slots": 50
}

响应状态码:200

输出说明

返回值

类型

说明

total_slots

int

推理服务支持的最大batch_size,取值为配置文件中maxBatchSize字段。当前未统计该数据,返回null。

free_slots

int

当前剩余slots字段,通过调度模块管理的参数获取。当前未统计该数据,返回null。