华为云UCS-健康诊断:支持的巡检项
支持的巡检项
巡检维度 |
集群巡检场景 |
巡检项 |
集群 |
集群资源规划能力 |
集群Master节点是否高可用 |
集群CPU的Request水位是否超过80% |
||
集群CPU的Limit水位是否超过150% |
||
集群内存的Request水位是否超过80% |
||
集群内存的Limit水位是否超过150% |
||
集群版本是否超期 |
||
集群运维能力 |
集群kube-prometheus-stack插件状态是否正常 |
|
集群log-agent插件状态是否正常 |
||
集群npd插件状态是否正常 |
||
集群配置 |
安全组配置是否正确 |
|
核心插件 |
coredns插件状态 |
coredns近24小时cpu使用率最大值是否超过80% |
coredns近24小时内存使用率最大值是否超过80% |
||
coredns近24小时是否存在 域名 解析失败请求次数 |
||
coredns近24小时P99请求时延是否超过5s |
||
coredns插件状态 |
||
everest插件状态 |
everest插件状态 |
|
everest近24小时CPU使用率最大值是否超过80% |
||
everest近24小时内存使用率最大值是否超过80% |
||
kube-prometheus-stack插件状态 |
kube-prometheus-stack近24小时CPU使用率最大值是否超过80% |
|
kube-prometheus-stack近24小时内存使用率最大值是否超过80% |
||
kube-prometheus-status插件状态 |
||
kube-prometheus-status近24小时是否出现OOM |
||
kube-prometheus-status在Server部署模式下,prometheus-server的PVC使用率是否超过80% |
||
log-agent插件状态 |
log-agent插件状态 |
|
LTS日志组、日志流是否创建成功 |
||
LTS日志组结构化是否创建成功 |
||
autoscaler插件状态 |
集群在开启节点池弹性扩缩容条件下,autoscaler插件状态是否可用 |
|
节点 |
节点状态 |
节点状态是否就绪 |
节点状态不可调度 |
||
节点kubelet状态 |
||
节点配置 |
节点内存的Requset是否超过80% |
|
节点CPU的Request是否超过80% |
||
节点内存的Limit检查是否超过150% |
||
节点CPU的Limit检查是否超过150% |
||
节点资源水位诊断 |
节点24小时内CPU使用率最大值是否超过80% |
|
节点24小时内内存使用率最大值是否超过80% |
||
节点磁盘使用率是否超过80% |
||
节点PID使用量是否正常 |
||
节点24小时内是否发生OOM事件 |
||
负载 |
Pod状态 |
Pod状态检查 |
Pod负载状态 |
Pod在24小时内是否发生OOM |
|
Pod的24小时内CPU使用率最大值是否超过80% |
||
Pod的24小时内内存使用率最大值是否超过80% |
||
Pod配置 |
Pod中的容器是否配置Request |
|
Pod中的容器是否配置Limit |
||
Pod探针配置 |
Pod中的容器是否配置存活探针 |
|
Pod中的容器是否配置就绪探针 |
||
外部依赖 |
租户节点资源配额 |
租户云硬盘配额是否超过90% |
租户E CS 配额充足是否超过90% |
巡检维度 |
集群巡检场景 |
巡检项 |
集群 |
集群资源规划能力 |
集群Master节点是否高可用 |
集群CPU的Request水位是否超过80% |
||
集群CPU的Limit水位是否超过150% |
||
集群内存的Request水位是否超过80% |
||
集群内存的Limit水位是否超过150% |
||
集群运维能力 |
集群kube-prometheus-stack插件状态是否正常 |
|
集群log-agent插件状态是否正常 |
||
核心插件 |
kube-prometheus-stack插件状态 |
kube-prometheus-stack近24小时CPU使用率最大值是否超过80% |
kube-prometheus-stack近24小时内存使用率最大值是否超过80% |
||
kube-prometheus-status插件状态 |
||
kube-prometheus-status近24小时是否出现OOM |
||
log-agent插件状态 |
log-agent插件状态 |
|
LTS日志组、日志流是否创建成功 |
||
LTS日志组结构化是否创建成功 |
||
节点 |
节点状态 |
节点状态是否就绪 |
节点状态不可调度 |
||
节点kubelet状态 |
||
节点配置 |
节点内存的Requset是否超过80% |
|
节点CPU的Request是否超过80% |
||
节点内存的Limit检查是否超过150% |
||
节点CPU的Limit检查是否超过150% |
||
节点资源水位诊断 |
节点24小时内CPU使用率最大值是否超过80% |
|
节点24小时内内存使用率最大值是否超过80% |
||
节点磁盘使用率是否超过80% |
||
节点PID使用量是否正常 |
||
节点24小时内是否发生OOM事件 |
||
负载 |
Pod状态 |
Pod状态检查 |
Pod负载状态 |
Pod在24小时内是否发生OOM |
|
Pod的24小时内CPU使用率最大值是否超过80% |
||
Pod的24小时内内存使用率最大值是否超过80% |
||
Pod配置 |
Pod中的容器是否配置Request |
|
Pod中的容器是否配置Limit |
||
Pod探针配置 |
Pod中的容器是否配置存活探针 |
|
Pod中的容器是否配置就绪探针 |
||
外部依赖 |
租户节点资源配额 |
租户云硬盘配额是否超过90% |
租户ECS配额充足是否超过90% |
巡检维度 |
集群巡检场景 |
巡检项 |
集群 |
集群资源规划能力 |
集群Master节点是否高可用 |
集群CPU的Request水位是否超过80% |
||
集群CPU的Limit水位是否超过150% |
||
集群内存的Request水位是否超过80% |
||
集群内存的Limit水位是否超过150% |
||
集群运维能力 |
集群kube-prometheus-stack插件状态是否正常 |
|
核心插件 |
kube-prometheus-stack插件状态 |
kube-prometheus-stack近24小时CPU使用率最大值是否超过80% |
kube-prometheus-stack近24小时内存使用率最大值是否超过80% |
||
kube-prometheus-status插件状态 |
||
kube-prometheus-status近24小时是否出现OOM |
||
节点 |
节点状态 |
节点状态是否就绪 |
节点状态不可调度 |
||
节点kubelet状态 |
||
节点配置 |
节点内存的Requset是否超过80% |
|
节点CPU的Request是否超过80% |
||
节点内存的Limit检查是否超过150% |
||
节点CPU的Limit检查是否超过150% |
||
节点资源水位诊断 |
节点24小时内CPU使用率最大值是否超过80% |
|
节点24小时内内存使用率最大值是否超过80% |
||
节点磁盘使用率是否超过80% |
||
节点PID使用量是否正常 |
||
节点24小时内是否发生OOM事件 |
||
负载 |
Pod状态 |
Pod状态检查 |
Pod负载状态 |
Pod在24小时内是否发生OOM |
|
Pod的24小时内CPU使用率最大值是否超过80% |
||
Pod的24小时内内存使用率最大值是否超过80% |
||
Pod配置 |
Pod中的容器是否配置Request |
|
Pod中的容器是否配置Limit |
||
Pod探针配置 |
Pod中的容器是否配置存活探针 |
|
Pod中的容器是否配置就绪探针 |
||
外部依赖 |
租户节点资源配额 |
租户云硬盘配额是否超过90% |
租户ECS配额充足是否超过90% |