文本推理接口

接口功能

提供文本推理处理功能。

接口格式

操作类型：POST

URL：https://{ip}:{port}/v2/models/${MODEL_NAME}[/versions/${MODEL_VERSION}]/generate

{ip}和{port}请使用业务面的IP地址和端口号，即“ipAddress”和“port”。
${MODEL_NAME}字段指定需要查询的模型名称。
[/versions/${MODEL_VERSION}]字段暂不支持，不传递。

请求参数

参数	是否必选	说明	取值要求
id	可选	请求ID。	长度不超过256的非空字符串。只允许包含下划线、中划线、大写英文字母、小写英文字母和数字。
text_input	必选	推理请求内容。单模态文本模型为string类型，多模态模型为list类型。	string：非空，0KB<字符数<=4MB，支持中英文。tokenizer之后的token数量小于或等于maxInputTokenLen、maxSeqLen-1、max_position_embeddings和1MB之间的最小值。其中，max_position_embeddings从权重文件config.json中获取，其他相关参数从配置文件中获取。 list：形如多模态模型inputs参数的示例格式即可。
type	可选	推理请求内容类型。	text：文本 image_url：图片
text	可选	推理请求内容为文本。	非空，0KB<字符数<=4MB，支持中英文。tokenizer之后的token数量小于或等于maxInputTokenLen、maxSeqLen-1、max_position_embeddings和1MB之间的最小值。其中，max_position_embeddings从权重文件config.json中获取，其他相关参数从配置文件中获取。
image_url	可选	推理请求内容为图片。	支持本地图片传入，图片类型支持jpg、png、jpeg和base64编码的jpg图片，支持URL图片传入。支持http和https协议。当前支持传入的最大图片数为1。
parameters	可选	模型推理后处理相关参数。	-
details	可选	是否返回推理详细输出结果。	bool类型，默认值false。
do_sample	可选	是否做sampling。	bool类型，不传递该参数时，将由其他后处理参数决定是否做sampling。 true：做sampling。 false：不做sampling。
max_new_tokens	可选	允许推理生成的最大token个数。实际产生的token数量同时受到配置文件maxIterTimes参数影响，推理token个数小于或等于Min(maxIterTimes, max_new_tokens)。	int类型，取值范围(0，2147483647]，默认值20。
repetition_penalty	可选	重复惩罚用于减少在文本生成过程中出现重复片段的概率。它对之前已经生成的文本进行惩罚，使得模型更倾向于选择新的、不重复的内容。	float类型，大于0.0，默认值1.0。小于1.0表示对重复进行奖励。 1.0表示不进行重复度惩罚。大于1.0表示对重复进行惩罚。建议最大值取2.0，同时视模型而定。
seed	可选	用于指定推理过程的随机种子，相同的seed值可以确保推理结果的可重现性，不同的seed值会提升推理结果的随机性。	uint_64类型，取值范围(0, 18446744073709551615]，不传递该参数，系统会产生一个随机seed值。当seed取到临近最大值时，会有WARNING，但并不会影响使用。若想去掉WARNING，可以减小seed取值。
temperature	可选	控制生成的随机性，较高的值会产生更多样化的输出。	float类型，大于0.0，默认值1.0。取值越大，结果的随机性越大。推荐使用大于或等于0.001的值，小于0.001可能会导致文本质量不佳。建议最大值取2.0，同时视模型而定。
top_k	可选	控制模型生成过程中考虑的词汇范围，只从概率最高的k个候选词中选择。	int32_t类型，取值范围[0, 2147483647]，字段未设置时，默认值由后端模型确定，详情请参见说明。取值大于或等于vocabSize时，默认值为vocabSize。 vocabSize是从modelWeightPath路径下的config.json文件中读取的vocab_size或者padded_vocab_size的值，若不存在则vocabSize取默认值0。建议用户在config.json文件中添加vocab_size或者padded_vocab_size参数，否则可能导致推理失败。
top_p	可选	控制模型生成过程中考虑的词汇范围，使用累计概率选择候选词，直到累计概率超过给定的阈值。该参数也可以控制生成结果的多样性，它基于累积概率选择候选词，直到累计概率超过给定的阈值为止。	float类型，取值范围(0.0, 1.0]，默认值1.0。
batch_size	可选	推理请求batch_size。	int类型，取值范围(0，2147483647]，默认值1。
typical_p	可选	解码输出概率分布指数。当前后处理不支持。	float类型，取值范围(0.0, 1.0]，字段未设置时，默认使用-1.0来表示不进行该项处理，但是不可主动设置为-1.0。
watermark	可选	是否带模型水印。当前后处理不支持。	bool类型，默认值false。 true：带模型水印。 false：不带模型水印。
perf_stat	可选	是否打开性能统计。	bool类型，默认值false。 true：打开性能统计。 false：关闭性能统计。
priority	可选	设置请求优先级。	uint64_t类型，取值范围[1, 5]，默认值5。值越低优先级越高，最高优先级为1。
timeout	可选	设置等待时间，超时则断开请求。	uint64_t类型，取值范围(0, 3600]，默认值600，单位：秒。

使用样例

请求样例：

POST https://{ip}:{port}/v2/models/llama_65b/generate

请求消息体：

单模态文本模型：

{
    "id":"a123",
    "text_input": "My name is Olivier and I",
    "parameters": {
        "details": true,
        "do_sample": true,
        "max_new_tokens":20,
        "repetition_penalty": 1.1,
        "seed": 123,
        "temperature": 1,
        "top_k": 10,
        "top_p": 0.99,
        "batch_size":100,
        "typical_p": 0.5,
        "watermark": false,
        "perf_stat": false,
        "priority": 5,
        "timeout": 10
    }
}

多模态模型：

"image_url"参数的取值请根据实际情况进行修改。

{
    "id":"a123",
    "text_input": [
        {"type": "text", "text": "My name is Olivier and I"},
        {
            "type": "image_url",
            "image_url": "/xxxx/test.png"
        }
    ],
    "parameters": {
        "details": true,
        "do_sample": true,
        "max_new_tokens":20,
        "repetition_penalty": 1.1,
        "seed": 123,
        "temperature": 1,
        "top_k": 10,
        "top_p": 0.99,
        "batch_size":100,
        "typical_p": 0.5,
        "watermark": false,
        "perf_stat": false,
        "priority": 5,
        "timeout": 10
    }
}

响应样例：

{
    "id": "a123",
    "model_name": "llama_65b",
    "model_version": null,
    "text_output": "am living in South of France.\nI have been addicted to Jurassic Park since very young. I played some video game versions but especially the great first pinball model from William which reminds me a lot of JPOG1 by song (deluxe). Unfortunately, it stopped working and has been unprofitable for a long time before being exchanged for another game. Fortunately there was the computer version. Nevertheless, it came out only on PC in 2003 when mine was too weak... It's just been a couple of months that the game came out on Mac (a whole 15 years late) with the Version 0.91JAMS ! I know this may be a little antique with the realistic animations and versions today, but the memories are very deep-seated . So thank you all rebuilders for keeping alive wonderful games like this one.\nSince then, I try to keep me updated about this game and test if possible later Alpha. Thank you so much for your work!</s>",
    "details": {
        "finish_reason": "eos_token",
        "generated_tokens": 221,
        "first_token_cost": null,
        "decode_cost": null
    }
}

输出说明

返回值	类型	说明
id	string	请求ID。
model_name	string	模型名称。
model_version	string	模型版本。当前未统计该数据，返回null。
text_output	string	推理返回结果。
details	object	推理details结果。
finish_reason	string	推理结束原因。 eos_token：请求正常结束。 stop_sequence：请求被主动CANCEL或STOP，用户不感知，丢弃响应。请求执行中出错，响应输出为空，err_msg非空。请求输入校验异常，响应输出为空，err_msg非空。 length：请求因达到最大序列长度而结束，响应为最后一轮迭代输出。请求因达到最大输出长度（包括请求和模型粒度）而结束，响应为最后一轮迭代输出。 invalid flag：无效标记。
generated_tokens	int	推理结果token数量。PD场景下统计P和D推理结果的总token数量。当一个请求的推理长度上限取maxIterTimes的值时，D节点响应中generated_tokens数量为maxIterTimes+1，即增加了P推理结果的首token数量。
first_token_cost	List[token]	文本推理返回，首token产生时间，单位：ms，当前未统计该数据，返回null。
decode_cost	int	decode时间，单位：ms，当前未统计该数据，返回null。

父主题： 兼容Triton接口