检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点上CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。
支持GPU节点的设备故障检测和隔离能力。 支持配置集群维度的自定义安全组。 CCE Turbo集群支持节点级别的网卡预热参数配置。 优化节点污点场景下负载调度的性能。 增强Containerd运行时绑核场景下长时间运行的稳定性。
支持GPU节点的设备故障检测和隔离能力。 支持配置集群维度的自定义安全组。 CCE Turbo集群支持节点级别的网卡预热参数配置。 优化节点污点场景下负载调度的性能。 增强Containerd运行时绑核场景下长时间运行的稳定性。
问题场景二:cce-pause版本异常 检测到当前kubelet依赖的pause容器镜像版本非cce-pause:3.1,继续升级将会导致批量Pod重启,当前暂不支持升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查
支持的集群版本 更新特性 社区版本 3.0.31 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 支持配置扩展参数 1.11.2 3.0.8 v1.27 v1.28 v1.29 v1.30 更新至社区v1.11.2版本 修复CVE-2024-7646漏洞
解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响; 如需帮助,请提交工单联系运维人员获取支持。 父主题: 升级前检查异常问题排查
由于容器共享宿主机的内核,一旦容器内部发生恶意行为或利用内核漏洞,就可能突破资源隔离,导致容器逃逸,进而威胁到宿主机及其他容器的安全。
最新版本的集群修复了已知的漏洞或者拥有更完善的安全防护机制,新建集群时推荐选择使用最新版本的集群。在集群版本停止提供服务前,请及时升级到新版本。 及时跟踪处理官网发布的漏洞 CCE服务会不定期发布涉及的漏洞,用户需及时关注和处理,参见漏洞公告。
跳过节点检查 检查项内容 集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。
部分指标模板依赖CCE节点故障检测插件(NPD)进行上报,指标详情请参见表1。如需要使用相关的告警规则,请确保节点故障检测插件(NPD)已安装且正常运行。 登录CCE控制台,单击集群名称进入一个已有的集群。
集群当前时间内存的Request水位是否超过80% 是 集群版本是否超期 否 集群版本EOS后,云容器引擎(CCE)将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。
就绪探针(Readiness Probe)可以通过检测Pod是否已经就绪,来告知Service是否可以将请求转发到Pod上。当Pod出现问题时,Readiness Probe可以避免新流量继续转发到这个Pod。
2.7.40 v1.28 v1.29 v1.30 v1.31 集成DCGM-Exporter,为集群提供Nvidia GPU节点DCGM指标观测能力 2.7.19 v1.28 v1.29 v1.30 修复nvidia-container-toolkit CVE-2024-0132容器逃逸漏洞
系统会以邮件、短信形式给客户发送账户余额变动通知,包括账户余额调整、充值到账、客户在线充值等。 父主题: 计费类
表1中使用problem_gauge指标的指标类告警规则依赖CCE节点故障检测插件(NPD)。如需要使用相关的告警规则,请确保节点故障检测插件(NPD)已安装且正常运行。
问题根因 当前kubelet上报Memory/Disk/PID Pressure情况(心跳)都依赖于eviction manager的检测。心跳上报和eviction manager的检测分别由两个协程并发执行。
商用 4 CCE集成华为云容器安全服务(CGS) CCE集成华为云容器安全服务(CGS),容器安全服务能够扫描镜像中的漏洞与配置信息,帮助企业解决传统安全软件无法感知容器环境的问题;同时提供容器进程白名单、文件只读保护和容器逃逸检测功能,有效防止容器运行时安全风险事件的发生。
作用范围 colocation-enable true/false false 允许 CCE Turbo 从集群维度来看,混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务对集群资源的充分利用;从节点维度来看,混部是将多个容器部署在同一个节点上,这些容器内的应用既包括在线类型
云原生可观测性插件 云原生监控插件 云原生日志采集插件 CCE节点故障检测 CCE容器网络扩展指标 Kubernetes Metrics Server Grafana Prometheus(停止维护) 父主题: 插件
1.4.2 v1.21 v1.23 v1.25 v1.27 v1.28 支持v1.28集群 支持本地集群日志采集 支持GPU事件上报AOM字段特殊处理 1.3.10 v1.17 v1.19 v1.21 v1.23 v1.25 v1.27 v1.28 修复fluent-bit内存崩溃漏洞