下载
中文
注册

推理服务查询接口

接口功能

查询服务的部署状态,包括部署阶段、就绪状态、模型信息等。

接口格式

操作类型:GET

URL:https://{ip}:{port}/v1/servers/{server_name}

请求参数

使用样例

请求样例:

GET https://{ip}:{port}/v1/servers/{server_name}

响应样例:

{
    "data": {
        "instances_status": [
            {
                "liveness": true,
                "pod_name": "mindie-server-zsm-586c8fb5f8-vtx2n",
                "readiness": true
            }
        ],
        "model_info": {
            "docker_label": null,
            "max_batch_total_tokens": 8192,
            "max_best_of": 1,
            "max_concurrent_requests": 200,
            "max_input_length": 2048,
            "max_stop_sequences": null,
            "max_waiting_tokens": null,
            "models": [
                {
                    "max_total_tokens": 2560,
                    "model_device_type": "npu",
                    "model_dtype": "float16",
                    "model_id": "llama2_7b",
                    "model_pipeline_tag": "text-generation",
                    "model_sha": null
                }
            ],
            "sha": null,
            "validation_workers": null,
            "version": "1.0.RC3",
            "waiting_served_ratio": null
        },
        "server_name": "mindie-server"
    },
    "message": "success",
    "status": "0"
}

重要参数解释:

liveness:表示服务存活状态,取值如下:
  • true:表示服务存活。
  • false:表示服务未存活。

readiness:表示服务实例启动状态,取值如下:

  • true:表示服务实例已启动完成并进入就绪状态。
  • false:表示服务实例未启动完成。

输出说明

表1 请求响应状态码

code

说明

200

ok:请求成功。

400

bad_request:请求失败,非法请求。

404

not_found:请求失败,找不到资源。

500

internal_server_error:请求失败,内部出现错误。