报错信息查询

ms_controller启动后,运行过程中可能出现的报错信息主要如下所示。

表1 报错信息

报错类型

报错原因

报错信息

系统异常

自身节点通信异常。

与周边组件失联,报出错误日志,级别为错误,关键日志信息如下所示:

[HttpClient] Failed to send http request.

进程异常退出。

部署平台通过健康探针,识别该异常退出,实现进程重启,业务恢复。关键日志信息如下所示:

[Controller]Run: exit

节点异常

部分节点无法获得实时状态。

  • 无法获得状态的节点,不会被纳入可调度节点。
  • 节点异常,报出错误日志。关键日志信息如下所示:
    [ServerRequestHandler]GetNodeStatus: send request failed, node id xxx, ip xxx, port xxx, ret code xxx, request ret %d
  • 集群服务状态输出文件中,可观测到该节点异常。该节点的is_healthy字段为false。

部分节点身份下发失败。

  • 下发身份失败的节点,不会被纳入可调度节点。
  • 节点异常,报出错误日志。关键日志信息如下所示:
    [NodeScheduler]PostSingleRole: request failed, node id xxx, ip xxx, port xxx, ret code xxx, request ret xxx
  • 集群服务状态中可观测到该节点异常,该节点的is_healthy字段为false。

某个Group内可用节点少于1P1D。

Group不可用,报出错误日志,关键日志信息如下所示:

[NodeScheduler]SendRole: all p node failed in group xxx
[NodeScheduler]SendRole: all d node failed in group xxx