说明
在当前版本中,用户可以在服务化配置中配置ModelConfig参数说明对应的后处理参数默认值。若用户没有指定相关配置,则后处理参数的默认值将会从模型权重目录下的配置文件中读取。不同后端的配置文件不同:
- atb(ATB Models):配置文件为generation_config.json文件与config.json文件,其中generation_config.json的优先级更高。若用户与模型权重均未指定“top_k”参数,为平衡性能与推理效果,“top_k”参数将会被设定为1000。
- ms(MindSpore):配置文件为“.yaml”结尾的文件。若用户与模型权重均未指定“top_k”参数,“top_k”参数将会被设定为0。
- 上述规则可能会导致当前版本与1.0.RC2版本的推理结果不一致,但当前版本的结果会更加符合人类语言习惯。如需复现1.0.RC2版本的推理结果,需要指定后处理参数和上个版本Server提供的默认值一致,1.0.RC2版本的Server提供的默认值请参见表1。
- 当前版本暂不支持通过修改generation_config.json文件中的“do_sample”参数为True来控制服务端默认开启采样。
- 不可在generation_config.json文件中将“temperature”设为0,否则将导致推理结果异常。
参数 |
默认值 |
---|---|
temperature |
1.0 |
top_k |
0 |
top_p |
1.0 |
do_sample |
False |
repetition_penalty |
1.0 |
frequency_penalty |
0.0 |
presence_penalty |
0.0 |
采样规则
- vLLM接口和OpenAI接口不支持do_sample,传递的do_sample不会被校验。
- 若用户传递do_sample=true,则程序会开启采样。
- 若用户传递do_sample=false,则程序会关闭采样,进行greedy search。
- 若用户未传递do_sample,则程序会根据temperature、top_k、top_p参数进行自动判断。自动判断的逻辑如下:
- temperature=0时,无视top_k、top_p取值,关闭后处理,进行greedy search。
- 若传递了top_k、top_p、或非0的temperature中的任一参数,则开启后处理采样,未传递的参数将按上文规则读取默认值填充。
- 若未传递任何参数,则进行greedy search。
父主题: 服务化接口