ms_coordinator启动后，运行过程中可能出现的报错信息主要如下所示。

异常类型	异常原因	异常表现
系统异常	自身节点通信异常。	与周边组件失联，报出错误日志，级别为致命，关键日志信息如下所示：获取请求信息失败： Get request info failed 如果推理请求结果正确，请忽略。记录请求与用户链接的映射失败： Connection record failed 如果推理请求结果正确，请忽略。获取链接失败： Get connection failed 该报错信息可能是推理请求处理过程中，集群里部分节点存在故障，导致通信失败；只要集群内还有可用的节点，后续的推理请求会调用到可用的节点上进行处理，可能会影响推理性能，但不影响请求推理结果。
	进程异常退出。	部署平台通过健康探针，识别该异常退出，实现进程重启，业务恢复。部署平台会将故障异常退出的节点重新拉起，如果一直拉起失败，则需要检查是否硬件故障。
	集群中无可用调度节点。	拒绝推理服务请求，在返回的错误码中告知错误详情。记录异常日志，级别为致命。关键日志信息如下所示： PD分离不够1P1D： MindIE-MS Coordinator is not ready PD混部不够1个节点： MindIE-MS Coordinator is not ready 该报错信息说明集群中可用的节点数量不足，有以下两种情况：节点还没完成初始化，等待一段时间后再次查看。节点出现故障。
	集群中某些节点无法通信。	报出错误日志，关键日志信息如下所示：与MindIE Server连接失败： Apply connection to node failed 该报错信息可能是推理请求处理过程中，集群里部分节点存在故障，导致通信失败；只要集群内还有可用的节点，后续的推理请求会调用到可用的节点上进行处理，可能会影响推理性能，但不影响请求推理结果。 P节点的返回消息格式不对： P instance error 该报错信息为程序BUG，需进一步排查问题。收到不存在的请求推理结果： DResultNormalToken: Get request id info failed 该报错信息为程序BUG，需进一步排查问题。接收P节点消息失败： Receive messages from p instance failed 该报错信息为程序BUG，需进一步排查问题。发送消息给P节点失败： Send messges to p instance failed 该报错信息可能是推理请求处理过程中，集群里部分节点存在故障，导致通信失败；只要集群内还有可用的实例，后续的推理请求会调用到可用的实例上进行处理，可能会影响推理性能，但不影响请求推理结果。
请求异常	请求量过大，超出限流阈值。	拒绝推理服务请求，关键日志信息如下所示： Too many requests 该报错信息两种解决方式如下所示：请用户自行降低发送请求的数量，直到没有出现Too many requests报错信息。修改ms_coordinator.json文件中的“max_requests”参数，按照实际需要发送的推理请求量调大此值。
	请求处理超时。	返回通知用户请求处理超时。包含三种类型：调度超时，首token超时和推理整体超时。关键日志信息如下所示：调度超时： Request schedule timeout 现该报错信息时，建议降低发送请求的数量，或者修改ms_coordinator.json文件中的“schedule_timeout”参数，按照用户能接受的等待实际调大此值。首token超时： Request first token timeout 出现该报错信息时，建议降低发送请求的数量，或者修改ms_coordinator.json文件中的“first_token_timeout”参数，按照用户能接受的等待实际调大此值。推理整体超时： Request inference timeout 出现该报错信息时，建议降低发送请求的数量，或者修改ms_coordinator.json文件中的“infer_timeout”参数，按照用户能接受的等待实际调大此值。 tokenizer超时： Request tokenizer timeout 出现该报错信息时，建议降低发送请求的数量，或者修改ms_coordinator.json文件中的“tokenizer_timeout”参数，按照用户能接受的等待实际调大此值。
	推理请求处理计算失败。	返回通知用户请求处理失败，直接将MindIE Server的错误日志透传回用户，并删除本次请求。如果推理请求结果正确，请忽略；如果推理不正确，说明为程序BUG，需进一步排查问题。

报错信息查询