Token推理接口

接口功能

提供Token推理处理功能。

接口格式

操作类型:POST

URL:https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/infer

请求参数

表1 请求参数

参数

是否必选

说明

取值范围

id

可选

推理请求id。

字符串。

inputs

必选

只有一个元素的数组。

-

outputs

必选

推理结果输出结构。

object。

表2 inputs参数

参数

是否必选

说明

取值范围

name

必选

输入名称,固定"input0"。

"input0"。

shape

必选

参数维度,1行,n列,和data长度相关。

(0, len(data)]。

dataType

必选

data数据类型,目前场景仅支持UINT32,传递tokenid。

“UINT32”。

seed

可选

用于指定推理过程的随机种子,相同的seed值可以确保推理结果的可重现性,不同的seed值会提升推理结果的随机性。

uint_64类型,取值范围,(0, 18446744073709551615],不传递该参数,系统会产生一个随机seed值。

temperature

可选

控制生成的随机性,较高的值会产生更多样化的输出。

float类型,大于0,默认值1.0。

  • 1.0表示不进行计算。
  • 大于1.0表示输出随机性提高。

top_k

可选

控制模型生成过程中考虑的词汇范围,只从概率最高的k个候选词中选择。使用限制请参见使用限制

int类型,取值范围[0, 2147483647]&&[0, vocabSize)默认值0。

vocabSize是从modelWeightPath路径下的config.json文件中读取的vocab_size值,若不存在则vocabSize取默认值0。

top_p

可选

控制模型生成过程中考虑的词汇范围,使用累计概率选择候选词,直到累计概率超过给定的阈值。该参数也可以控制生成结果的多样性,它基于累积概率选择候选词,直到累计概率超过给定的阈值为止。

float类型,取值范围(0, 1],默认值1.0。

do_sample

可选

是否做sampling。

bool类型,默认值false。

repetition_penalty

可选

重复惩罚用于减少在文本生成过程中出现重复片段的概率。它对之前已经生成的文本进行惩罚,使得模型更倾向于选择新的、不重复的内容。

float类型,大于0,默认值1.0。

  • 1.0表示不进行重复度惩罚。
  • 大于1.0表示对重复进行惩罚。

max_new_tokens

可选

允许的最大新标记数目。控制从模型生成的文本中添加到最终输出中的最大词汇数量。该字段受到GIMIS配置文件maxIterTimes参数影响,推理token输出长度<=maxIterTimes。

int类型,取值范围(0, maxIterTimes]。默认值20。

表3 outputs参数

参数

是否必选

说明

取值范围

name

必选

推理结果输出名。

只支持"output0"。

[/versions/${MODEL_VERSION}]字段暂不支持,不传递。

使用样例

请求样例:

POST https://<ip>:<port>/v2/models/llama_65b/infer

请求消息体:

{
 "id": "42",
 "inputs": [{
  "name": "input0",
  "shape": [
   1,
   10
  ],
  "datatype": "UINT32",
  "data": [
   396, 319, 13996, 29877, 29901, 29907, 3333, 20718, 316, 23924
  ],
  "parameters": {
   "temperature": 0.5,
   "top_k": 10,
   "top_p": 0.95,
   "do_sample": true,
   "seed": null,
   "repetition_penalty": 1.03,
   "max_new_tokens": 512
  }
 }],
 "outputs": [{
  "name": "output0"
 }]
}

响应样例:

{
 "id": "42",
 "outputs": [{
  "name": "output0",
  "shape": [1, 512],
  "datatype": "UINT32",
  "data": [1, 396, 319, 13996, 29877, 29901, 29907, 3333, 20718, 316, 23924, 562, 2142, 1702, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 13, 13, 5661, 22215, 20718, 316, 23924, 562, 2142, 1702, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 3576, 560, 23300, 712, 11806, 29980, 263, 1232, 22215, 928, 2255, 1277, 3810, 316, 425, 10811, 287, 1572, 1290, 316, 383, 19498, 316, 21035, 29892, 18726, 314, 10820, 343, 560, 1704, 18673, 313, 1168, 29883, 562, 2142, 29897, 263, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 29892, 712, 409, 25001, 29980, 427, 12201, 29889, 13, 13, 2525, 3001, 316, 29871, 29896, 29953, 16954, 14980, 12306, 267, 316, 29345, 316, 19537, 628, 21035, 29892, 19537, 8068, 343, 560, 1704, 18673, 752, 277, 10243, 1277, 3248, 2174, 16095, 1513, 294, 1702, 560, 28743, 316, 29345, 29889, 1260, 23300, 27712, 560, 29871, 29941, 316, 9019, 316, 29871, 29896, 29929, 29947, 29947, 343, 2186, 466, 29980, 560, 29871, 29906, 29945, 316, 9350, 316, 29871, 29896, 29929, 29947, 29929, 29889, 13, 13, 2277, 317, 28474, 316, 5100, 6396, 13, 13, 6489, 23300, 1040, 29980, 316, 9941, 24627, 294, 29889, 1174, 425, 8633, 364, 14287, 29892, 1869, 29871, 29896, 29953, 16954, 14980, 5221, 3794, 12004, 25227, 8817, 427, 19545, 26161, 29892, 3248, 316, 21135, 316, 19545, 7462, 359, 343, 1232, 11929, 3248, 316, 9941, 29889, 4602, 3248, 27141, 7245, 5114, 316, 9747, 12249, 1029, 4096, 5022, 263, 425, 17329, 364, 14287, 29892, 8334, 1232, 29871, 29947, 7462, 359, 5221, 3794, 12004, 25227, 4396, 427, 3248, 26161, 316, 19545, 29889, 4602, 3248, 27141, 316, 9747, 12249, 1029, 4096, 5022, 263, 425, 1935, 23322, 364, 14287, 29892, 8334, 1232, 29871, 29946, 7462, 359, 5221, 3794, 12004, 25227, 4396, 427, 443, 6651, 12249, 29889, 4602, 3248, 27141, 22215, 928, 5022, 263, 425, 14015, 16060, 316, 383, 19498, 316, 29871, 29896, 29929, 29929, 29900, 29889, 13, 13, 2277, 11243, 666, 359, 5221, 3794, 13, 13, 2369, 18580, 4244, 29892, 1232, 7462, 359, 9512, 3794, 29889, 13, 13, 2277, 22915, 364, 14287, 13, 13, 2277, 29937, 5430, 1129, 29871, 29896, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 1605, 262, 2368, 343, 22354, 4425, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29906, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 21810, 26421, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29941, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 9145, 29976, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29946, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 14756, 29889, 13, 13, 2277, 24153, 364, 14287, 13, 13, 2277, 29937, 5430, 1129, 29871, 29896, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 9702, 9726, 29889, 13, 13, 2277, 29937, 5430, 1129, 29871, 29906, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 379, 898, 10939, 29889, 13, 13, 2277, 5061, 23322, 364, 14287, 13, 13, 29286, 28122, 409, 8740, 5022, 427, 9702, 9726, 29889, 13, 13, 2277, 8867, 8795, 13, 13, 29930, 21581, 29889, 510, 448, 2233, 294, 928, 1061, 423, 316, 23924, 562, 2142, 1702, 425, 14015, 16060, 316]
 }]
}

输出说明

返回值

类型

说明

id

string

请求id。

outputs

list

推理结果列表。

name

string

默认"output0"。

shape

list

结构为[1, n],1表示1维数组,n表示data字段中token结果长度。

datatype

string

"UINT32"。

data

list

推理后生成的token id集合。