最大程度兼容TGI接口返回格式,对于MindIE Server不支持的返回字段,返回null。
查询TGI EndPoint信息。
操作类型:GET
URL:https://{ip}:{port}/info
无
请求样例:
GET https://{ip}:{port}/info
响应样例:
{ "docker_label": null, "max_batch_total_tokens": 8192, "max_best_of": 1, "max_concurrent_requests": 200, "max_stop_sequences": null, "max_waiting_tokens": null, "sha": null, "validation_workers": null, "version": "1.0.0", "waiting_served_ratio": null, "models": [ { "model_device_type": "npu", "model_dtype": "float16", "model_id": "llama_65b", "model_pipeline_tag": "text-generation", "model_sha": null, "max_total_tokens": 2560 } ], "max_input_length": 2048 }
响应状态码:200
参数 |
类型 |
说明 |
|
---|---|---|---|
docker_label |
string |
暂不支持,默认返回null。 |
|
max_batch_total_tokens |
int |
取maxPrefillTokens。 |
|
max_best_of |
int |
暂不支持best_of参数,默认返回1,即每次只返回1个推理结果。 |
|
max_concurrent_requests |
int |
最大并发请求数,取maxBatchSize。 |
|
max_stop_sequences |
int |
暂不支持,默认返回null。 |
|
max_waiting_tokens |
int |
暂不支持,默认返回null。 |
|
sha |
string |
暂不支持,默认返回null。 |
|
validation_workers |
int |
暂不支持,默认返回null。 |
|
version |
string |
版本号。 |
|
waiting_served_ratio |
float |
暂不支持,默认返回null。 |
|
models |
list |
模型配置。 |
|
- |
model_device_type |
string |
模型运行设备类型,默认返回"npu"。 |
model_dtype |
string |
模型数据类型,读取权重配置文件目录config.json文件中的torch_dtype字段。 |
|
model_id |
string |
模型名称。 |
|
model_pipeline_tag |
string |
模型任务类型,默认返回"text-generation"。 |
|
model_sha |
string |
暂不支持,默认返回null。 |
|
max_total_tokens |
int |
最大推理token总数,读取maxSeqLen的值。 |
|
max_input_length |
int |
最大输入长度,读取maxInputTokenLen的值。 |