推理服务查询接口
接口功能
查询服务的部署状态,包括部署阶段、就绪状态、模型信息等。
接口格式
操作类型:GET
URL:https://{ip}:{port}/v1/servers/{server_name}
请求参数
无
使用样例
请求样例:
GET https://{ip}:{port}/v1/servers/{server_name}
响应样例:
{ "data": { "instances_status": [ { "liveness": true, "pod_name": "mindie-server-zsm-586c8fb5f8-vtx2n", "readiness": true } ], "model_info": { "docker_label": null, "max_batch_total_tokens": 8192, "max_best_of": 1, "max_concurrent_requests": 200, "max_input_length": 2048, "max_stop_sequences": null, "max_waiting_tokens": null, "models": [ { "max_total_tokens": 2560, "model_device_type": "npu", "model_dtype": "float16", "model_id": "llama2_7b", "model_pipeline_tag": "text-generation", "model_sha": null } ], "sha": null, "validation_workers": null, "version": "1.0.RC3", "waiting_served_ratio": null }, "server_name": "mindie-server" }, "message": "success", "status": "0" }
重要参数解释:
liveness:表示服务存活状态,取值如下:
- true:表示服务存活。
- false:表示服务未存活。
readiness:表示服务实例启动状态,取值如下:
- true:表示服务实例已启动完成并进入就绪状态。
- false:表示服务实例未启动完成。
输出说明
code |
说明 |
---|---|
200 |
ok:请求成功。 |
400 |
bad_request:请求失败,非法请求。 |
404 |
not_found:请求失败,找不到资源。 |
500 |
internal_server_error:请求失败,内部出现错误。 |
父主题: RESTful接口API