检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例如集群升级场景kubelet重启时扫描所有挂载点,当扫描到此异常挂载点会卡死,导致升级失败。
例如集群升级场景kubelet重启时扫描所有挂载点,当扫描到此异常挂载点会卡死,导致升级失败。
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。
CCE节点故障检测插件版本发布记录 表1 CCE节点故障检测插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.19.16 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 0.8.10 1.19.11
但是有时候例如Java程序内存泄漏了,程序无法正常工作,但是JVM进程却是一直运行的,对于这种应用本身业务出了问题的情况,Kubernetes提供了Liveness Probe机制,通过检测容器响应是否正常来决定是否重启,这是一种很好的健康检查机制。
(CVE-2024-41110) 漏洞公告 2024/07/31 11 Linux内核权限提升漏洞公告(CVE-2024-1086) 漏洞公告 2024/07/16 12 OpenSSH远程代码执行漏洞公告(CVE-2024-6387) 漏洞公告 2024/07/03 13 Fluent
CCE节点安全配置建议 及时跟踪处理官网发布的漏洞 节点在新的镜像发布前请参考漏洞公告,完成节点漏洞修复。 节点不暴露到公网 如非必需,节点不建议绑定EIP,以减少攻击面。 在必须使用EIP的情况下,应通过合理配置防火墙或者安全组规则,限制非必须的端口和IP访问。
操作系统重大漏洞修复:跟随集群补丁升级策略发布。
问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。 问题根因 EulerOS和CentOS类型的节点存在由NTP引起的已知问题,其他类型的节点不涉及该问题。
kubelet超卖迁移至云原生混部超卖说明 当集群满足表1中的迁移场景时,您可以参照以下步骤进行迁移: 在节点池中开启云原生混部资源超卖时,若检测到之前已开启了kubelet混部超卖,由于云原生混部资源超卖与kubelet超卖兼容模式无法同时生效,此时将自动关闭kubelet超卖实现迁移
解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。 如果CCE节点故障检测插件版本已经为1.13.6及以上版本,则不需要进行升级操作。
3.10.0-1160.92.1.el7.x86_64 2023年12月 更新系统内核,修复安全漏洞。 3.10.0-1160.90.1.el7.x86_64 2023年8月 更新系统内核,修复安全漏洞。
在此之后,您仍可以使用您的1.17版本集群,但CCE将不再提供对该版本的技术支持,包含支持新的功能、社区bugfix回合、漏洞修复、升级等。 建议您在版本停止维护前及时将集群升级到最新版本,升级操作请参见集群升级。 父主题: 集群版本公告
通过NPD插件排查 CCE提供节点故障检测NPD插件,NPD插件从1.16.0版本开始增加了大量检查项,能对节点上各种资源和组件的状态检测,帮助发现节点故障。 强烈建议您安装该插件,如已安装请查看插件版本并升级到1.16.0及以上版本。
表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。
版本EOS(停止服务)阶段:CCE集群版本EOS之后,CCE将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。
解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server; 请您在集群中安装相应metrics插件之后重试检查 父主题: 升级前检查异常问题排查
当在线业务带宽低于在线业务水线时,离线业务的带宽阈值处于一个相对较高的水平,即表示允许离线业务占用一定的带宽;当在线业务带宽超过在线业务水线时,则会相应地调低离线业务带宽阈值,以降低离线业务占用的带宽,预留出更多的带宽供在线业务使用。
支持GPU节点的设备故障检测和隔离能力。 支持配置集群维度的自定义安全组。 CCE Turbo集群支持节点级别的网卡预热参数配置。 优化节点污点场景下负载调度的性能。 增强Containerd运行时绑核场景下长时间运行的稳定性。