云容器引擎 CCE-诊断项及修复方案:集群维度

时间:2024-05-17 11:30:04

集群维度

集群诊断场景

诊断项

是否需要开通监控中心

修复方案

集群资源规划能力

集群Master节点是否高可用

集群为单控制节点,控制节点故障时,集群将不可用,进而会影响集群中运行服务的可靠性。提升服务韧性建议使用高可用集群,当高可用集群某个控制节点故障时,不影响集群业务。

集群当前时间CPU的Request水位是否超过80%

Request代表工作负载运行的最低资源要求,集群水位过高,剩余资源不能够满足新应用Request要求时,应用将不能被创建。需要根据业务情况,合理规划资源分配。详见设置容器规格

集群当前时间内存的Request水位是否超过80%

集群版本是否超期

集群版本EOS后,云容器引擎(CCE)将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。请前往CCE的集群管理页面,升级集群版本。详见集群升级指导

集群运维能力

集群kube-prometheus-stack插件状态是否正常

云原生监控插件kube-prometheus-stack主要提供了集群运维监控的能力,要体验一站式监控体系,需前往插件市场,安装插件并检查插件状态。插件详情参见云原生监控插件

集群log-agent插件状态是否正常

运维插件log-agent提供了集群中负载的日志采集、日志管理的能力,体验日志管理能力,帮助集群中服务问题快速定位定界。需前往插件市场,安装插件并检查插件状态。

集群npd插件状态是否正常

运维插件npd(node-problem-detector)提供了节点异常监控的能力。如需体验节点监控能力,检查节点资源异常情况。需前往插件市场,安装插件并检查插件状态。详见CCE节点故障检测

集群配置

安全组配置是否正确

集群安全组配置异常,直接影响节点之前的通信,导致节点不可用。请使用默认安全组配置。

support.huaweicloud.com/usermanual-cce/cce_10_0823.html