检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。 如果CCE节点故障检测插件版本已经为1.13.6及以上版本,则不需要进行升级操作。
全隔离。由于容器共享宿主机的内核,一旦容器内部发生恶意行为或利用内核漏洞,就可能突破资源隔离,导致容器逃逸,进而威胁到宿主机及其他容器的安全。 为了提高运行时安全性,可以通过多种机制对容器内部的恶意活动进行检测和预防,这些机制可以与Kubernetes集成,包括但不限于Capab
检查连接跟踪表是否满 FrequentKubeletRestart 检测kubelet频繁重启 FrequentDockerRestart 检测docker频繁重启 FrequentContainerdRestart 检测containerd频繁重启 CRIProblem 检查容器CRI组件状态
表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
当集群状态为“可用”,而集群中部分节点状态为“不可用”时,请参照本文提供的排查思路解决。 节点不可用检测机制说明 Kubernetes 节点发送的心跳确定每个节点的可用性,并在检测到故障时采取行动。检测的机制和间隔时间详细说明请参见心跳。 排查思路 以下排查思路根据原因的出现概率进行排序,建
方位的监控。同时在易用性上,提供良好的可视化视图,支持多级下钻与关联分析。 CCE支持上报告警和事件,通过告警模板,用户可以一键开启,实时检测集群和容器故障。 Standard/Turbo集群可观测性 Autopilot集群可观测性 模板市场 CCE Standard集群、CCE
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server;
前是否有新的版本可供升级。主动升级集群有以下好处: 降低安全和稳定性风险:Kubernetes版本迭代过程中,会不断修复发现的安全及稳定性漏洞,长久使用EOS版本集群会给业务带来安全和稳定性风险。 支持新功能和新操作系统:Kubernetes版本的迭代过程中,会不断带来新的功能、
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在
节点上CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题是由于cce-agent没有
1 节点磁盘慢IO 检测节点磁盘是否存在慢IO故障 指标类 云原生监控插件 节点故障检测插件 problem_gauge{type="DiskSlow"} >= 1 节点进程资源不足 检查系统关键资源PID进程资源是否充足 指标类 云原生监控插件 节点故障检测插件 problem
市场,安装插件并检查插件状态。 CCE节点故障检测插件状态是否正常 否 CCE节点故障检测插件提供了节点异常监控的能力。如需体验节点监控能力,检查节点资源异常情况。需前往插件市场,安装插件并检查插件状态。详情请参见CCE节点故障检测。 集群配置 安全组配置是否正确 否 集群安全组
2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞 2.7.13 v1.28 v1.29 v1.30 支持节点池粒度配置XGPU 支持GPU渲染场景 支持v1.30集群 2.6.4 v1.28
kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。
检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响;
19 v1.21 v1.23 更新至社区v1.2.0版本 修复CVE-2021-25746漏洞,新增规则禁用一些存在越权风险的Anntotations值 修复CVE-2021-25745漏洞,新增规则禁用一些存在越权风险的访问路径 1.2.0 表10 NGINX Ingress控制器插件2
容器镜像服务为您提供了一个强大的工具——镜像安全扫描功能。只需一键操作,您就可以对您的镜像进行全面的安全检查。这项服务能够深入扫描您在镜像仓库中的私有镜像,识别出潜在的安全漏洞,并为您提供针对性的修复建议。 了解更多关于如何使用镜像安全扫描功能,以及如何解读和应用扫描结果中的修复建议,请参见镜像安全扫描。 使用镜像签名并配置验签策略
Pressure情况(心跳)都依赖于eviction manager的检测。心跳上报和eviction manager的检测分别由两个协程并发执行。正常情况下,如果先执行eviction manager的检测,再执行心跳上报,则kubelet可以上报正确的磁盘情况,并不会删除污点
开通监控中心,请前往监控中心一键开通。详情请参见开通监控中心。 部分指标模板依赖CCE节点故障检测插件(NPD)进行上报,指标详情请参见表1。如需要使用相关的告警规则,请确保节点故障检测插件(NPD)已安装且正常运行。 登录CCE控制台,单击集群名称进入一个已有的集群。 在左侧导航栏选择“告警中心”,切换至“告警规则
跳过节点检查 检查项内容 集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案