检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置容器健康检查 操作场景 健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针:
当您初次使用健康诊断时,单击“马上诊断”,集群将开始执行诊断。等待一段时间后,健康诊断页面将显示健康评分、风险分布雷达图、诊断风险汇总、历史风险分布,以及诊断结果。 图2 诊断概览 查看诊断结果 诊断结束后,页面将自动刷新并展示诊断结果,其中无风险项将自动隐藏。 健康诊断将针对不
健康中心概述 集群健康诊断用于诊断集群的健康状态,该功能集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出应对的修复建议供您参考。 健康诊断覆盖范围 健康诊断覆盖范围如下图所示: 图1 健康诊断覆盖范围
健康中心 健康中心概述 使用健康中心 诊断项及修复方案 父主题: 可观测性
请确保该端口在Pod所在节点已被监听,否则会影响健康检查结果。 健康检查初始等待时间 开始健康检查的初始等待时间(秒) 参数名 取值范围 默认值 是否允许修改 作用范围 delay 1-50 5 允许 CCE Standard/CCE Turbo 健康检查的超时时间 健康检查的超时时间(秒) 参数名
核心插件维度 集群诊断场景 诊断项 是否需要开通监控中心 修复方案 coredns插件状态 coredns插件状态 否 coredns插件是系统必装的资源插件,为集群提供域名解析服务。插件未安装或者异常将影响集群整体业务响应,影响范围大。需前往插件市场,安装插件或者检查插件状态。
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
控制节点组件健康检查异常处理 检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
健康检查使用UDP协议的安全组规则说明 操作场景 当负载均衡协议为UDP时,健康检查也采用的UDP协议,您需要打开其后端服务器的ICMP协议安全组规则。关于使用UDP协议健康检查的详细说明,请参见使用UDP协议有什么注意事项?。 操作步骤 登录CCE控制台,单击服务列表中的“网络
节点操作系统 集群版本与操作系统对应关系 如下为当前已经发布的集群版本与操作系统版本的对应关系,请参考: 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本 CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2
误。 TCP健康检查的机制 ELB节点根据健康检查配置,向后端服务器(IP+健康检查端口)发送TCP SYN报文。 后端服务器收到请求报文后,如果相应的端口已经被正常监听,则会返回SYN+ACK报文。 如果在超时时间内没有收到后端服务器的SYN+ACK报文,则判定健康检查失败,然
负载均衡器:必须使用独享型ELB,您可以选择已有的ELB或自动创建新的ELB。 健康检查:开启健康检查(不开启则默认为健康检查成功)。 图1 负载均衡配置 前往ELB控制台,查看对应的后端服务器组,健康检查状态正常。 在CCE控制台中查看工作负载状态处于“运行中”。 父主题: 负载均衡(LoadBalancer)
节点操作系统说明 本文为您提供当前已经发布的集群版本与操作系统版本的对应关系。 弹性云服务器-虚拟机 表1 弹性云服务器-虚拟机节点操作系统 操作系统 集群版本 CCE Standard集群 CCE Turbo集群 最新内核信息 VPC网络模型 容器隧道网络模型 云原生网络2.0
ports添加健康检查的目标端口,由协议、端口号组成,如:TCP:80 monitor_port 否 String 重新指定的健康检查端口,不指定时默认使用业务端口。 说明: 请确保该端口在Pod所在节点已被监听,否则会影响健康检查结果。 delay 否 String 健康检查间隔(秒)
签。 集群健康度 集群健康度评估包括多个维度,如健康评分、待处理风险项数、风险等级,以及诊断风险项在Master、集群、节点、工作负载和外部依赖五个方面的占比(异常数据使用红色突出显示)。欲了解更多诊断结果,请前往健康中心页面查看。 图1 集群健康度 健康概况 资源健康概况 资源
系统委托说明 由于CCE在运行中对计算、存储、网络以及监控等各类云服务资源都存在依赖关系,因此当您首次登录CCE控制台时,CCE将自动请求获取当前区域下的云资源权限,从而更好地为您提供服务。服务权限包括: 计算类服务 CCE集群创建节点时会关联创建云服务器,因此需要获取访问弹性云服务器、裸金属服务器的权限。
当可用区故障节点规模达到指定比例时被认定为不健康,针对不健康的区域,故障节点业务的迁移频率会降级,避免规模故障场景下大规模迁移操作产生更坏的影响 配置建议: 无特殊需求建议保持默认配置 比例配置过大可能导致区域在规模故障场景下仍尝试执行大规模迁移动作,导致集群过载等风险 节点迁移速率 当某区域健康时,在节点故障的情况下每秒删除
升级操作完成后,节点将会自动开机。 为确保节点稳定性,系统会预留部分CPU和内存资源,用于运行必须的系统组件。 约束与限制 使用私有镜像的节点暂不支持升级操作。 老版本的节点升级操作系统时可能存在兼容性问题,请手动重置节点完成操作系统升级。 默认节点池 登录CCE控制台。 单击集群名
速率会降低至第二档,默认为0.01。 unhealthy-zone-threshold:可用区的不健康阈值,默认为0.55,即当该可用区中节点宕机数目超过55%时,认为该可用区不健康。 large-cluster-size-threshold:集群的大规模阈值,默认为50,当集群