云服务器内容精选

华为云首页用户手册

健康中心

云容器引擎 CCE-诊断项及修复方案:集群维度

集群维度集群诊断场景诊断项是否需要开通监控中心修复方案集群资源规划能力集群Master节点是否高可用是集群为单控制节点，控制节点故障时，集群将不可用，进而会影响集群中运行服务的可靠性。提升服务韧性建议使用高可用集群，当高可用集群某个控制节点故障时，不影响集群业务。集群当前时间CPU的Request水位是否超过80% 是 Request代表工作负载运行的最低资源要求，集群水位过高，剩余资源不能够满足新应用Request要求时，应用将不能被创建。需要根据业务情况，合理规划资源分配。详见设置容器规格。集群当前时间内存的Request水位是否超过80% 是集群版本是否超期否集群版本EOS后，云容器引擎（CCE）将不再支持对该版本的集群创建，同时不提供相应的技术支持，包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持，不再适用于CCE服务SLA保障。请前往CCE的集群管理页面，升级集群版本。详见集群升级指导。集群运维能力集群kube-prometheus-stack插件状态是否正常否云原生监控插件kube-prometheus-stack主要提供了集群运维监控的能力，要体验一站式监控体系，需前往插件市场，安装插件并检查插件状态。插件详情参见云原生监控插件集群log-agent插件状态是否正常否运维插件log-agent提供了集群中负载的日志采集、日志管理的能力，体验日志管理能力，帮助集群中服务问题快速定位定界。需前往插件市场，安装插件并检查插件状态。集群npd插件状态是否正常否运维插件npd（node-problem-detector）提供了节点异常监控的能力。如需体验节点监控能力，检查节点资源异常情况。需前往插件市场，安装插件并检查插件状态。详见CCE节点故障检测。集群配置安全组配置是否正确否集群安全组配置异常，直接影响节点之前的通信，导致节点不可用。请使用默认安全组配置。

云容器引擎 CCE 健康中心
云容器引擎 CCE-诊断项及修复方案:节点维度

节点维度集群诊断场景诊断项是否需要开通监控中心修复方案节点状态节点状态是否就绪是节点为承载业务的核心资源，状态不就绪可能直接导致承载在节点上的业务受到影响，需立即修复。节点状态不可调度是节点不可调度将导致节点资源不能被正常使用，请前往CCE节点管理，查看节点状态是否符合预期。节点kubelet状态是 kubelet为节点关键组件，不可用可能会导致节点异常，Pod状态不符合预期（与APIServer的Pod状态不一致）。可以到节点上通过如下命令查看kubelet日志，并分析异常原因。命令参考：journalctl -l -u kubelet 节点配置节点当前时间内存的Requset水位是否超过80% 是节点的Request水位将影响新应用能否被调度到该节点上。水位过高，剩余资源不满足应用要求时，该节点将不会被调度到。本诊断项已为您检测出了Request水位高出阈值的节点资源，可根据检测结果合理规划您的应用。节点当前时间CPU的Request水位是否超过80% 是节点资源水位诊断节点24小时内CPU使用率最大值是否超过80% 是节点的cpu过高将导致节点处理能力下降，影响节点上运行的服务。请前往监控中心，查询节点CPU使用状况，合理规划节点资源，或者对节点进行扩容。节点24小时内内存使用率最大值是否超过80% 是节点内存过高，存在节点OOM风险，影响节点上服务的可用性。请前往监控中心，查看节点内存使用状况，合理规划节点资源，或者对节点进行扩容。节点磁盘使用率是否超过80% 是节点磁盘使用率过高将影响系统Pod和业务Pod，请及时扩容。建议通过如下命令查看磁盘信息： lsblk 列出所有可用块设备的信息 df -h 列出挂载的每个磁盘中的可用磁盘空间量 fdisk -l 列出所有的分区节点PID使用量是否正常是节点PID出现压力，可能导致节点不稳定，需释放无用进程或者修改PID上限。可以通过如下命令查看PID信息。查看最大PID数：sysctl kernel.pid_max 查看当前的最大PID：ps -eLf|awk '{print $2}' | sort -rn| head -n 1 查看占用SPID最多的前5个进程：ps -elT | awk '{print $4}' | sort | uniq -c | sort -k1 -g | tail -5 节点24小时内是否发生OOM事件是节点出现OOM将使节点中的服务功能受损，可前往监控中心分析内存运行状况，合理规划资源，或者进行扩容。

云容器引擎 CCE 健康中心