华为云UCS-健康诊断:支持的巡检项

时间:2024-09-12 15:06:00

支持的巡检项

表1 CCE集群巡检项

巡检维度

集群巡检场景

巡检项

集群

集群资源规划能力

集群Master节点是否高可用

集群CPU的Request水位是否超过80%

集群CPU的Limit水位是否超过150%

集群内存的Request水位是否超过80%

集群内存的Limit水位是否超过150%

集群版本是否超期

集群运维能力

集群kube-prometheus-stack插件状态是否正常

集群log-agent插件状态是否正常

集群npd插件状态是否正常

集群配置

安全组配置是否正确

核心插件

coredns插件状态

coredns近24小时cpu使用率最大值是否超过80%

coredns近24小时内存使用率最大值是否超过80%

coredns近24小时是否存在 域名 解析失败请求次数

coredns近24小时P99请求时延是否超过5s

coredns插件状态

everest插件状态

everest插件状态

everest近24小时CPU使用率最大值是否超过80%

everest近24小时内存使用率最大值是否超过80%

kube-prometheus-stack插件状态

kube-prometheus-stack近24小时CPU使用率最大值是否超过80%

kube-prometheus-stack近24小时内存使用率最大值是否超过80%

kube-prometheus-status插件状态

kube-prometheus-status近24小时是否出现OOM

kube-prometheus-status在Server部署模式下,prometheus-server的PVC使用率是否超过80%

log-agent插件状态

log-agent插件状态

LTS日志组、日志流是否创建成功

LTS日志组结构化是否创建成功

autoscaler插件状态

集群在开启节点池弹性扩缩容条件下,autoscaler插件状态是否可用

节点

节点状态

节点状态是否就绪

节点状态不可调度

节点kubelet状态

节点配置

节点内存的Requset是否超过80%

节点CPU的Request是否超过80%

节点内存的Limit检查是否超过150%

节点CPU的Limit检查是否超过150%

节点资源水位诊断

节点24小时内CPU使用率最大值是否超过80%

节点24小时内内存使用率最大值是否超过80%

节点磁盘使用率是否超过80%

节点PID使用量是否正常

节点24小时内是否发生OOM事件

负载

Pod状态

Pod状态检查

Pod负载状态

Pod在24小时内是否发生OOM

Pod的24小时内CPU使用率最大值是否超过80%

Pod的24小时内内存使用率最大值是否超过80%

Pod配置

Pod中的容器是否配置Request

Pod中的容器是否配置Limit

Pod探针配置

Pod中的容器是否配置存活探针

Pod中的容器是否配置就绪探针

外部依赖

租户节点资源配额

租户云硬盘配额是否超过90%

租户E CS 配额充足是否超过90%

表2 本地集群巡检项

巡检维度

集群巡检场景

巡检项

集群

集群资源规划能力

集群Master节点是否高可用

集群CPU的Request水位是否超过80%

集群CPU的Limit水位是否超过150%

集群内存的Request水位是否超过80%

集群内存的Limit水位是否超过150%

集群运维能力

集群kube-prometheus-stack插件状态是否正常

集群log-agent插件状态是否正常

核心插件

kube-prometheus-stack插件状态

kube-prometheus-stack近24小时CPU使用率最大值是否超过80%

kube-prometheus-stack近24小时内存使用率最大值是否超过80%

kube-prometheus-status插件状态

kube-prometheus-status近24小时是否出现OOM

log-agent插件状态

log-agent插件状态

LTS日志组、日志流是否创建成功

LTS日志组结构化是否创建成功

节点

节点状态

节点状态是否就绪

节点状态不可调度

节点kubelet状态

节点配置

节点内存的Requset是否超过80%

节点CPU的Request是否超过80%

节点内存的Limit检查是否超过150%

节点CPU的Limit检查是否超过150%

节点资源水位诊断

节点24小时内CPU使用率最大值是否超过80%

节点24小时内内存使用率最大值是否超过80%

节点磁盘使用率是否超过80%

节点PID使用量是否正常

节点24小时内是否发生OOM事件

负载

Pod状态

Pod状态检查

Pod负载状态

Pod在24小时内是否发生OOM

Pod的24小时内CPU使用率最大值是否超过80%

Pod的24小时内内存使用率最大值是否超过80%

Pod配置

Pod中的容器是否配置Request

Pod中的容器是否配置Limit

Pod探针配置

Pod中的容器是否配置存活探针

Pod中的容器是否配置就绪探针

外部依赖

租户节点资源配额

租户云硬盘配额是否超过90%

租户ECS配额充足是否超过90%

表3 附着集群、多云集群、伙伴云集群巡检项

巡检维度

集群巡检场景

巡检项

集群

集群资源规划能力

集群Master节点是否高可用

集群CPU的Request水位是否超过80%

集群CPU的Limit水位是否超过150%

集群内存的Request水位是否超过80%

集群内存的Limit水位是否超过150%

集群运维能力

集群kube-prometheus-stack插件状态是否正常

核心插件

kube-prometheus-stack插件状态

kube-prometheus-stack近24小时CPU使用率最大值是否超过80%

kube-prometheus-stack近24小时内存使用率最大值是否超过80%

kube-prometheus-status插件状态

kube-prometheus-status近24小时是否出现OOM

节点

节点状态

节点状态是否就绪

节点状态不可调度

节点kubelet状态

节点配置

节点内存的Requset是否超过80%

节点CPU的Request是否超过80%

节点内存的Limit检查是否超过150%

节点CPU的Limit检查是否超过150%

节点资源水位诊断

节点24小时内CPU使用率最大值是否超过80%

节点24小时内内存使用率最大值是否超过80%

节点磁盘使用率是否超过80%

节点PID使用量是否正常

节点24小时内是否发生OOM事件

负载

Pod状态

Pod状态检查

Pod负载状态

Pod在24小时内是否发生OOM

Pod的24小时内CPU使用率最大值是否超过80%

Pod的24小时内内存使用率最大值是否超过80%

Pod配置

Pod中的容器是否配置Request

Pod中的容器是否配置Limit

Pod探针配置

Pod中的容器是否配置存活探针

Pod中的容器是否配置就绪探针

外部依赖

租户节点资源配额

租户云硬盘配额是否超过90%

租户ECS配额充足是否超过90%

support.huaweicloud.com/usermanual-ucs/ucs_01_0121.html