ms_coordinator启动后,运行过程中可能出现的报错信息主要如下所示。
异常类型
|
异常原因
|
异常表现
|
系统异常
|
自身节点通信异常。
|
与周边组件失联,报出错误日志,级别为致命,关键日志信息如下所示:
|
进程异常退出。
|
部署平台通过健康探针,识别该异常退出,实现进程重启,业务恢复。
部署平台会将故障异常退出的节点重新拉起,如果一直拉起失败,则需要检查是否硬件故障。
|
集群中无可用调度节点。
|
拒绝推理服务请求,在返回的错误码中告知错误详情。 记录异常日志,级别为致命。关键日志信息如下所示:
该报错信息说明集群中可用的节点数量不足,有以下两种情况:
- 节点还没完成初始化,等待一段时间后再次查看。
- 节点出现故障。
|
集群中某些节点无法通信。
|
报出错误日志,关键日志信息如下所示:
- 与MindIE Server连接失败:
Apply connection to node failed
该报错信息可能是推理请求处理过程中,集群里部分节点存在故障,导致通信失败;只要集群内还有可用的节点,后续的推理请求会调用到可用的节点上进行处理,可能会影响推理性能,但不影响请求推理结果。
- P节点的返回消息格式不对:
P instance error
该报错信息为程序BUG,需进一步排查问题。
- 收到不存在的请求推理结果:
DResultNormalToken: Get request id info failed
该报错信息为程序BUG,需进一步排查问题。
- 接收P节点消息失败:
Receive messages from p instance failed
该报错信息为程序BUG,需进一步排查问题。
- 发送消息给P节点失败:
Send messges to p instance failed
该报错信息可能是推理请求处理过程中,集群里部分节点存在故障,导致通信失败;只要集群内还有可用的实例,后续的推理请求会调用到可用的实例上进行处理,可能会影响推理性能,但不影响请求推理结果。
|
请求异常
|
请求量过大,超出限流阈值。
|
拒绝推理服务请求,关键日志信息如下所示:
Too many requests
该报错信息两种解决方式如下所示:
- 请用户自行降低发送请求的数量,直到没有出现Too many requests报错信息。
- 修改ms_coordinator.json文件中的“max_requests”参数,按照实际需要发送的推理请求量调大此值。
|
请求处理超时。
|
返回通知用户请求处理超时。包含三种类型: 调度超时,首token超时和推理整体超时。关键日志信息如下所示:
- 调度超时:
Request schedule timeout
现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“schedule_timeout”参数,按照用户能接受的等待实际调大此值。
- 首token超时:
Request first token timeout
出现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“first_token_timeout”参数,按照用户能接受的等待实际调大此值。
- 推理整体超时:
Request inference timeout
出现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“infer_timeout”参数,按照用户能接受的等待实际调大此值。
- tokenizer超时:
Request tokenizer timeout
出现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“tokenizer_timeout”参数,按照用户能接受的等待实际调大此值。
|
推理请求处理计算失败。
|
返回通知用户请求处理失败,直接将MindIE Server的错误日志透传回用户,并删除本次请求。
如果推理请求结果正确,请忽略;如果推理不正确,说明为程序BUG,需进一步排查问题。
|