云容器引擎 CCE-诊断项及修复方案:集群维度
集群维度
集群诊断场景 |
诊断项 |
是否需要开通监控中心 |
修复方案 |
---|---|---|---|
集群资源规划能力 |
集群Master节点是否高可用 |
是 |
集群为单控制节点,控制节点故障时,集群将不可用,进而会影响集群中运行服务的可靠性。提升服务韧性建议使用高可用集群,当高可用集群某个控制节点故障时,不影响集群业务。 |
集群当前时间CPU的Request水位是否超过80% |
是 |
Request代表工作负载运行的最低资源要求,集群水位过高,剩余资源不能够满足新应用Request要求时,应用将不能被创建。需要根据业务情况,合理规划资源分配。详见设置容器规格。 |
|
集群当前时间内存的Request水位是否超过80% |
是 |
||
集群版本是否超期 |
否 |
集群版本EOS后,云容器引擎(CCE)将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。请前往CCE的集群管理页面,升级集群版本。详见集群升级指导。 |
|
集群运维能力 |
集群kube-prometheus-stack插件状态是否正常 |
否 |
云原生监控插件kube-prometheus-stack主要提供了集群运维监控的能力,要体验一站式监控体系,需前往插件市场,安装插件并检查插件状态。插件详情参见云原生监控插件 |
集群log-agent插件状态是否正常 |
否 |
运维插件log-agent提供了集群中负载的日志采集、日志管理的能力,体验日志管理能力,帮助集群中服务问题快速定位定界。需前往插件市场,安装插件并检查插件状态。 |
|
集群npd插件状态是否正常 |
否 |
运维插件npd(node-problem-detector)提供了节点异常监控的能力。如需体验节点监控能力,检查节点资源异常情况。需前往插件市场,安装插件并检查插件状态。详见CCE节点故障检测。 |
|
集群配置 |
安全组配置是否正确 |
否 |
集群安全组配置异常,直接影响节点之前的通信,导致节点不可用。请使用默认安全组配置。 |