MAPREDUCE服务 MRS-查看FlinkServer作业健康状况:作业健康状态说明

时间:2024-11-28 01:44:41

作业健康状态说明

当集群运行大量Flink作业时,为方便用户对每个作业进行健康状态评估,FlinkServer WebUI提供Flink作业健康度管理功能,用户可直接在页面查看当前作业的健康情况,并可一键导出所有作业的健康度信息。作业状态分如下情况:

  • 健康:作业运行正常,作业状态健康。
  • 亚健康:
    • 出现“ALM-45637 Flink作业task持续背压”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
    • 出现“ALM-45639 Flink作业checkpoint完成时间超过阈值”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
  • 不健康:
    • 出现“ALM-45636 Flink作业连续checkpoint失败”告警,根据告警信息修复告警后,健康状态自动恢复至健康。
    • 出现“ALM-45638 Flink作业失败重启次数超阈值”告警,根据告警信息修复告警后,需重启该作业,作业自动恢复至健康。
support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_248937.html