报错信息查询

ms_coordinator启动后,运行过程中可能出现的报错信息主要如下所示。

异常类型

异常原因

异常表现

系统异常

自身节点通信异常。

与周边组件失联,报出错误日志,级别为致命,关键日志信息如下所示:

  • 获取请求信息失败:
    Get request info failed

    如果推理请求结果正确,请忽略。

  • 记录请求与用户链接的映射失败:
    Connection record failed

    如果推理请求结果正确,请忽略。

  • 获取链接失败:
    Get connection failed

    该报错信息可能是推理请求处理过程中,集群里部分节点存在故障,导致通信失败;只要集群内还有可用的节点,后续的推理请求会调用到可用的节点上进行处理,可能会影响推理性能,但不影响请求推理结果。

进程异常退出。

部署平台通过健康探针,识别该异常退出,实现进程重启,业务恢复。

部署平台会将故障异常退出的节点重新拉起,如果一直拉起失败,则需要检查是否硬件故障。

集群中无可用调度节点。

拒绝推理服务请求,在返回的错误码中告知错误详情。 记录异常日志,级别为致命。关键日志信息如下所示:

  • PD分离不够1P1D:
    MindIE-MS Coordinator is not ready
  • PD混部不够1个节点:
    MindIE-MS Coordinator is not ready

该报错信息说明集群中可用的节点数量不足,有以下两种情况:

  • 节点还没完成初始化,等待一段时间后再次查看。
  • 节点出现故障。

集群中某些节点无法通信。

报出错误日志,关键日志信息如下所示:

  • MindIE Server连接失败:
    Apply connection to node failed

    该报错信息可能是推理请求处理过程中,集群里部分节点存在故障,导致通信失败;只要集群内还有可用的节点,后续的推理请求会调用到可用的节点上进行处理,可能会影响推理性能,但不影响请求推理结果。

  • P节点的返回消息格式不对:
    P instance error

    该报错信息为程序BUG,需进一步排查问题。

  • 收到不存在的请求推理结果:
    DResultNormalToken: Get request id info failed

    该报错信息为程序BUG,需进一步排查问题。

  • 接收P节点消息失败:
    Receive messages from p instance failed

    该报错信息为程序BUG,需进一步排查问题。

  • 发送消息给P节点失败:
    Send messges to p instance failed

    该报错信息可能是推理请求处理过程中,集群里部分节点存在故障,导致通信失败;只要集群内还有可用的实例,后续的推理请求会调用到可用的实例上进行处理,可能会影响推理性能,但不影响请求推理结果。

请求异常

请求量过大,超出限流阈值。

拒绝推理服务请求,关键日志信息如下所示:

Too many requests

该报错信息两种解决方式如下所示:

  • 请用户自行降低发送请求的数量,直到没有出现Too many requests报错信息。
  • 修改ms_coordinator.json文件中的“max_requests”参数,按照实际需要发送的推理请求量调大此值。

请求处理超时。

返回通知用户请求处理超时。包含三种类型: 调度超时,首token超时和推理整体超时。关键日志信息如下所示:

  • 调度超时:
    Request schedule timeout

    现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“schedule_timeout”参数,按照用户能接受的等待实际调大此值。

  • 首token超时:
    Request first token timeout

    出现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“first_token_timeout”参数,按照用户能接受的等待实际调大此值。

  • 推理整体超时:
    Request inference timeout

    出现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“infer_timeout”参数,按照用户能接受的等待实际调大此值。

  • tokenizer超时:
    Request tokenizer timeout

    出现该报错信息时,建议降低发送请求的数量,或者修改ms_coordinator.json文件中的“tokenizer_timeout”参数,按照用户能接受的等待实际调大此值。

推理请求处理计算失败。

返回通知用户请求处理失败,直接将MindIE Server的错误日志透传回用户,并删除本次请求。

如果推理请求结果正确,请忽略;如果推理不正确,说明为程序BUG,需进一步排查问题。