检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查节点镜像数量异常处理 检查项内容 检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
节点交换区检查异常处理 检查项内容 检查集群CCE节点的上是否开启了交换区。 解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
容器与节点时区同步 在CCE Turbo集群中配置Pod延时启动参数 在CCE集群中使用容器的安全配置建议 在CCE集群中使用密钥Secret的安全配置建议 在CCE集群中使用工作负载Identity的安全配置建议 监控相关 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标
仍然能够使用该YAML文件创建工作负载,但是容器在运行时,却不会使用您原本期望的命令,而是执行了镜像中的EntryPoint默认命令。 解决方案 查看Pod的配置,确定Pod中容器的配置是否符合预期。具体操作,请参见Pod配置查看方法。 排查环境变量中的某一个Key是否存在拼写错
GPU/NPU Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
节点Ready检查异常处理 检查项内容 检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
控制节点组件健康检查异常处理 检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server;
设置极速文件存储挂载参数 本章节主要介绍如何设置极速文件存储的挂载参数。极速文件存储仅支持在PV中设置挂载参数,然后通过创建PVC绑定PV。 前提条件 CCE容器存储(Everest)版本要求1.2.8及以上版本。插件主要负责将挂载参数识别并传递给底层存储,指定参数是否有效依赖于底层存储是否支持。
创建节点时使用OBS桶实现自定义脚本注入 应用现状 对于需要在节点上提前安装一些工具或者做用户自定义的安全加固等操作时,需要在创建节点的时候注入一些脚本。CCE创建节点提供了Kubernetes安装前和安装后两处注入脚本的功能。但是使用通常碰到如下限制: 注入脚本的字符有限。 各
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控
Interface,简称Sub-ENI)的能力,将Pod直接绑定弹性网卡或辅助弹性网卡,使每个Pod在VPC内均拥有独立的IP地址,且支持ELB直通容器、Pod绑定安全组、Pod绑定弹性公网IP等特性。由于不需要使用容器隧道封装和NAT地址转换,云原生网络2.0模型与容器隧道网络模型和VPC网络模型相比具有比较高的网络性能。
OpenKruise插件兼容性检查异常处理 检查项内容 检查集群升级时,OpenKruise插件是否存在兼容性问题。 解决方案 Kubernetes社区在1.24版本移除了对dockershim的支持。CCE为兼顾用户使用docker运行时的习惯,在CCE的v1.25及以上的集群
Autopilot集群 10:36 CCE Autopilot:全面”自动驾驶”时代的引领者 CCE FinOps解决方案 介绍华为云云原生FinOps解决方案 10:36 华为云云原生FinOps解决方案,释放云原生最大价值 CCE云原生观测中心 介绍CCE云原生观测中心 10:36 新一代云原生可观测平台