检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存活探针(Liveness Probe) 存活探针 Kubernetes提供了自愈的能力,具体就是能感知到容器崩溃,然后能够重启这个容器。
如果配置了这类探测器,就可以控制容器在启动成功后再进行存活性和就绪检查, 确保这些存活、就绪探针不会影响应用程序的启动。 这可以用于对启动慢的容器进行存活性检测,避免它们在启动运行之前就被终止。
CCE节点故障检测 插件简介 CCE节点故障检测插件(原名NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。
开启节点故障检测 登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,切换至“节点”页签,检查集群中是否已安装npd插件,或将其升级至最新版本。npd安装成功后,可正常使用故障检测策略功能。 npd运行正常时,单击“故障检测策略”,可查看当前故障检测项。
CCE节点故障检测插件版本发布记录 表1 CCE节点故障检测插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.19.11 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 修复部分问题 0.8.10 1.19.8 v1.21 v1.23
健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在节点,磁盘IO等性能达到瓶颈,导致业务处理超时。 父主题: 容器设置
Pod探针配置 Pod中的容器是否配置存活探针 否 建议配置存活探针,若未配置存活探针(livenessProbe),在Pod应用异常时,无法被及时感知并重启,从而影响业务QoS。
Readiness Probe同样是周期性的检测Pod,然后根据响应来判断Pod是否就绪,与存活探针(Liveness Probe)相同,就绪探针也支持如下三种类型。 Exec:Probe执行容器中的命令并检查命令退出的状态码,如果状态码为0则说明已经就绪。
通过NPD插件排查 CCE提供节点故障检测NPD插件,NPD插件从1.16.0版本开始增加了大量检查项,能对节点上各种资源和组件的状态检测,帮助发现节点故障。 强烈建议您安装该插件,如已安装请查看插件版本并升级到1.16.0及以上版本。
解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。 如果CCE节点故障检测插件版本已经为1.13.6及以上版本,则不需要进行升级操作。
表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
节点上CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。
节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。
配置存活探针可以很好的规避类似情况,及时重启Pod,恢复服务。 就绪探针(Readiness Probe)可以通过检测Pod是否已经就绪,来告知Service是否可以将请求转发到Pod上。当Pod出现问题时,Readiness Probe可以避免新流量继续转发到这个Pod。
设置存活/就绪探针:在容器配置中选择“健康检查”,开启存活探针和就绪探针。示例中均为TCP端口检查,请根据应用实际情况进行设置。检测周期、延时时间、超时时间等数据需要合理设置,部分应用启动时间较长,如果设置的时间过短,会导致Pod反复重启。
解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server; 请您在集群中安装相应metrics插件之后重试检查 父主题: 升级前检查异常问题排查
如果存活态探测失败,则 kubelet 会终止容器, 并且容器将根据其重启策略决定未来。如果容器不提供存活探针, 则默认状态为 Success。
问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。 问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题,其他类型的节点不涉及该问题。
用户可以在支持PHP和MySQL数据库的服务上架设属于自己的网站,也可以把WordPress当作一个内容管理系统来使用。更多WordPress信息可以通过官方网站了解:https://wordpress.org/。