参考Triton接口定义,提供提前终止请求接口。
操作类型:POST
URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/stopInfer
参数 |
是否必选 |
说明 |
取值要求 |
---|---|---|---|
id |
必选 |
推理请求id。 |
字符串。 |
[/versions/${MODEL_VERSION}]字段暂不支持,不传递。
请求样例:
POST https://<ip>:<port>/v2/models/llama_65b/stopInfer
请求消息体:
{ "id":"a123" }
响应样例:
{ "id":"a123" }
响应状态码:200
返回值 |
类型 |
说明 |
---|---|---|
id |
string |
成功停止推理请求id。 |