告警信息
当设备发生故障或因某些原因导致设备处于不能正常工作时,边缘管理系统能够根据不同类型及不同模块出现的故障产生告警信息,同时生成日志信息。若配置了网管系统,则该告警信息会向网管系统(如FusionDirector)发送。设备上的传感器能检测设备所处的环境,若超出设备正常工作的环境要求,会发出相应的告警信息。
事件和故障
告警按照对设备的影响可分为:
- 事件:指设备正常运行时记录下来的关键事件,一般对设备没有影响。
- 故障:指可能影响设备正常运行的告警。
告警级别
人工智能计算产品的告警可分三个级别,按告警严重性分为:
- 一般告警(Minor):不会对系统产生大的影响,需要尽快采取相应的措施,防止故障升级。
- 严重告警(Major):会对系统产生较大的影响,有可能中断部分系统的正常运行,导致业务中断。
- 紧急告警(Critical):可能会使设备下电,系统中断。需要马上采取相应的措施进行处理。
告警格式
以边缘管理系统已支持的证书告警为例,告警内容为00180000@cert warning@CERT@1866989008@1@aabb,以@作为分隔符,每部分代表的含义如下:
- 00180000:告警ID
- cert warning:告警名称
- CERT:告警对象
- 1866989008:告警产生的时间戳
- 1:告警等级,取值范围是0~2,0对应紧急,1对应严重,2对应一般
- aabb:固定的结束符
OM SDK预留的告警配置
OM SDK预置的告警配置包括温度告警、电源告警、存储告警、NFS告警、端口告警、NPU告警、Wireless_Module告警等。详细的告警配置信息说明请参见OM SDK预留的告警配置。
父主题: 自定义告警