云服务器内容精选

  • 集群维度 集群诊断场景 诊断项 是否需要开通监控中心 修复方案 集群资源规划能力 集群Master节点是否高可用 是 集群为单控制节点,控制节点故障时,集群将不可用,进而会影响集群中运行服务的可靠性。提升服务韧性建议使用高可用集群,当高可用集群某个控制节点故障时,不影响集群业务。 集群当前时间CPU的Request水位是否超过80% 是 Request代表工作负载运行的最低资源要求,集群水位过高,剩余资源不能够满足新应用Request要求时,应用将不能被创建。需要根据业务情况,合理规划资源分配。详见设置容器规格。 集群当前时间内存的Request水位是否超过80% 是 集群版本是否超期 否 集群版本EOS后,云容器引擎(CCE)将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。请前往CCE的集群管理页面,升级集群版本。详见集群升级指导。 集群运维能力 集群kube-prometheus-stack插件状态是否正常 否 云原生监控插件kube-prometheus-stack主要提供了集群运维监控的能力,要体验一站式监控体系,需前往插件市场,安装插件并检查插件状态。插件详情参见云原生监控插件 集群log-agent插件状态是否正常 否 运维插件log-agent提供了集群中负载的日志采集、日志管理的能力,体验日志管理能力,帮助集群中服务问题快速定位定界。需前往插件市场,安装插件并检查插件状态。 集群npd插件状态是否正常 否 运维插件npd(node-problem-detector)提供了节点异常监控的能力。如需体验节点监控能力,检查节点资源异常情况。需前往插件市场,安装插件并检查插件状态。详见CCE节点故障检测。 集群配置 安全组配置是否正确 否 集群安全组配置异常,直接影响节点之前的通信,导致节点不可用。请使用默认安全组配置。
  • 节点维度 集群诊断场景 诊断项 是否需要开通监控中心 修复方案 节点状态 节点状态是否就绪 是 节点为承载业务的核心资源,状态不就绪可能直接导致承载在节点上的业务受到影响,需立即修复。 节点状态不可调度 是 节点不可调度将导致节点资源不能被正常使用,请前往CCE节点管理,查看节点状态是否符合预期。 节点kubelet状态 是 kubelet为节点关键组件,不可用可能会导致节点异常,Pod状态不符合预期(与APIServer的Pod状态不一致)。可以到节点上通过如下命令查看kubelet日志,并分析异常原因。命令参考:journalctl -l -u kubelet 节点配置 节点当前时间内存的Requset水位是否超过80% 是 节点的Request水位将影响新应用能否被调度到该节点上。水位过高,剩余资源不满足应用要求时,该节点将不会被调度到。本诊断项已为您检测出了Request水位高出阈值的节点资源,可根据检测结果合理规划您的应用。 节点当前时间CPU的Request水位是否超过80% 是 节点资源水位诊断 节点24小时内CPU使用率最大值是否超过80% 是 节点的cpu过高将导致节点处理能力下降,影响节点上运行的服务。请前往监控中心,查询节点CPU使用状况,合理规划节点资源,或者对节点进行扩容。 节点24小时内内存使用率最大值是否超过80% 是 节点内存过高,存在节点OOM风险,影响节点上服务的可用性。请前往监控中心,查看节点内存使用状况,合理规划节点资源,或者对节点进行扩容。 节点磁盘使用率是否超过80% 是 节点磁盘使用率过高将影响系统Pod和业务Pod,请及时扩容。建议通过如下命令查看磁盘信息: lsblk 列出所有可用块设备的信息 df -h 列出挂载的每个磁盘中的可用磁盘空间量 fdisk -l 列出所有的分区 节点PID使用量是否正常 是 节点PID出现压力,可能导致节点不稳定,需释放无用进程或者修改PID上限。可以通过如下命令查看PID信息。 查看最大PID数:sysctl kernel.pid_max 查看当前的最大PID:ps -eLf|awk '{print $2}' | sort -rn| head -n 1 查看占用SPID最多的前5个进程:ps -elT | awk '{print $4}' | sort | uniq -c | sort -k1 -g | tail -5 节点24小时内是否发生OOM事件 是 节点出现OOM将使节点中的服务功能受损,可前往监控中心分析内存运行状况,合理规划资源,或者进行扩容。