查询TGI EndPoint信息

接口功能

查询TGI EndPoint信息。

最大程度兼容TGI接口返回格式,对于MindIE Server不支持的返回字段,返回null。

接口格式

操作类型:GET

URL:https://{ip}:{port}/info

请求参数

使用样例

请求样例:

GET https://<ip>:<port>/info

响应样例:

{
 "docker_label": null,
 "max_batch_total_tokens": 32000,
 "max_best_of": 1,
 "max_concurrent_requests": 300,
 "max_input_length": 1024, //maxSeqLen - maxIterTimes
 "max_stop_sequences": null,
 "max_waiting_tokens": null,
 "models": [{
   "model_device_type": "npu",
   "model_dtype": "torch.float16",
   "model_id": "bigscience/blomm-560m",//模型名称
   "model_pipeline_tag": "text-generation",
    "max_total_tokens": 2048,//取maxSeqLen的值
   "model_sha": null
  },
  {
   "model_device_type": "npu",
   "model_dtype": "torch.float16",
   "model_id": "bigscience/blomm-560m",
   "model_pipeline_tag": "text-generation",
    "max_total_tokens": 2048,//取maxSeqLen的值
   "model_sha": null
  }
 ],
 "sha": null,
 "validation_workers": null,
 "version": "{version}",
 "waiting_served_ratio": null
}

响应状态码:200

输出说明

参数

类型

说明

docker_label

string

暂不支持,默认返回null。

max_batch_total_tokens

int

建议取maxPrefillTokens。

max_best_of

int

暂不支持best_of参数,默认返回1,即每次只返回1个推理结果。

max_concurrent_requests

int

最大并发请求数,取maxBatchSize。

max_input_length

int

最大输入长度,取值maxSeqLen-maxIterTimes。

max_stop_sequences

int

暂不支持,默认返回null。

max_waiting_tokens

int

暂不支持,默认返回null。

models

list

模型配置。

model_device_type

string

模型运行设备类型,默认返回"npu"。

model_dtype

string

模型数据类型,读取权重配置文件目录config.json文件中的torch_dtype字段。

model_id

string

模型名称。

model_pipeline_tag

string

模型任务类型,默认返回"text-generation"。

max_total_token

string

最大推理token总数,读取maxSeqLen的值。

model_sha

string

暂不支持,默认返回null。

sha

string

暂不支持,默认返回null。

validation_workers

int

暂不支持,默认返回null。

version

string

"{version}",版本号。

waiting_served_ratio

float

暂不支持,默认返回null。