检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
单击“确定”。 问题场景二:集群配置管理异常 修复集群异常配置步骤如下: 登录CCE控制台,进入“配置中心”。 选择“网络配置”,修改“节点预热容器网卡数回收阈值”,使其不超过256。 单击“确认配置”。 父主题: 升级前检查异常问题排查
升级后验证 集群状态检查 节点状态检查 跳过节点检查 业务检查 新建节点检查 新建Pod检查 父主题: 升级集群
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命令,具体请参见通过kubectl连接集群。
轮转证书文件数量检查 检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/op
需要手动吊销集群访问凭证,以确保集群安全。 吊销集群访问凭证的存在两类场景: 子用户(非管理员):支持吊销自身的集群访问凭证。 主账号或管理员用户(admin用户组用户):支持吊销其他用户或委托账号的集群访问凭证。 吊销集群访问凭证后,该凭证的持有人将无法访问集群,且无法恢复已吊销的凭证,请谨慎操作。
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id /tmp/instance-id
NetworkManager命令后重新查询状态。 如果上述操作无法解决,建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
作为反向代理将外部流量导入到集群内部,将Kubernetes内部的Service暴露给外部,在Ingress对象中通过域名匹配Service,这样就可以直接通过域名访问到集群内部的服务。 nginx-ingress由ingress-controller和nginx组件组成: in
改。 解决方案 该问题的出现,一般是由于用户在CCE中创建HTTPS类型Ingress后,直接在ELB证书管理功能中修改了Ingress引用的证书,导致CCE集群中存储的证书内容与ELB侧不一致,进而导致升级后ELB侧证书被覆盖。 请登录ELB服务控制台,在“弹性负载均衡 > 证
在替换节点池、节点滚动升级等场景中,需要使用新节点池替换旧节点池。在这些场景下,为做到业务不感知,可以在业务触发变更时,将业务的Pod软亲和调度到新的节点池上。这种软亲和调度会尽量将新创建的Pod或者重调度的Pod调度到新的节点池,如果新节点池资源不足,或者新节点池无法调度,也要能
er节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没有登录
检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。 父主题: 升级前检查异常问题排查
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
行时修改为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点池,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。 父主题: 升级前检查异常问题排查
控制台“节点管理”处显示正常,但检查结果仍然提示该节点NotReady。请重试检查。 控制台“节点管理”处无该节点,但检查结果显示集群中仍然存在该节点。请联系技术人员支持。 父主题: 升级前检查异常问题排查
所属实例:选择企业版仓库实例,您需要提前购买一个企业版仓库,详情请参见购买仓库。 域名:企业版仓库支持配置多个自定义域名,您可以选择采用默认域名或自定义域名。关于自定义域名的操作详情请参见域名管理。 如果需要使用第三方镜像,可直接输入镜像地址,但需同时保证使用的镜像访问凭证可访问镜像仓库,详情请参见使用第三方镜像。
-Group机器不检查 解决方案 建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
tation,如果存在则将其去掉,并在对应的service的spec中添加下列字段来替代该annotation: publishNotReadyAddresses: true 问题场景二: 1.27及以上集群中的service存在废弃的annotation:service.kubernetes