查询TGI EndPoint信息。
最大程度兼容TGI接口返回格式,对于MindIE Server不支持的返回字段,返回null。
操作类型:GET
URL:https://{ip}:{port}/info
无
请求样例:
GET https://<ip>:<port>/info
响应样例:
{ "docker_label": null, "max_batch_total_tokens": 32000, "max_best_of": 1, "max_concurrent_requests": 300, "max_input_length": 1024, //maxSeqLen - maxIterTimes "max_stop_sequences": null, "max_waiting_tokens": null, "models": [{ "model_device_type": "npu", "model_dtype": "torch.float16", "model_id": "bigscience/blomm-560m",//模型名称 "model_pipeline_tag": "text-generation", "max_total_tokens": 2048,//取maxSeqLen的值 "model_sha": null }, { "model_device_type": "npu", "model_dtype": "torch.float16", "model_id": "bigscience/blomm-560m", "model_pipeline_tag": "text-generation", "max_total_tokens": 2048,//取maxSeqLen的值 "model_sha": null } ], "sha": null, "validation_workers": null, "version": "{version}", "waiting_served_ratio": null }
响应状态码:200
参数 |
类型 |
说明 |
---|---|---|
docker_label |
string |
暂不支持,默认返回null。 |
max_batch_total_tokens |
int |
建议取maxPrefillTokens。 |
max_best_of |
int |
暂不支持best_of参数,默认返回1,即每次只返回1个推理结果。 |
max_concurrent_requests |
int |
最大并发请求数,取maxBatchSize。 |
max_input_length |
int |
最大输入长度,取值maxSeqLen-maxIterTimes。 |
max_stop_sequences |
int |
暂不支持,默认返回null。 |
max_waiting_tokens |
int |
暂不支持,默认返回null。 |
models |
list |
模型配置。 |
model_device_type |
string |
模型运行设备类型,默认返回"npu"。 |
model_dtype |
string |
模型数据类型,读取权重配置文件目录config.json文件中的torch_dtype字段。 |
model_id |
string |
模型名称。 |
model_pipeline_tag |
string |
模型任务类型,默认返回"text-generation"。 |
max_total_token |
string |
最大推理token总数,读取maxSeqLen的值。 |
model_sha |
string |
暂不支持,默认返回null。 |
sha |
string |
暂不支持,默认返回null。 |
validation_workers |
int |
暂不支持,默认返回null。 |
version |
string |
"{version}",版本号。 |
waiting_served_ratio |
float |
暂不支持,默认返回null。 |