检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HTTPS类型负载均衡证书一致性检查异常处理 检查项内容 检查HTTPS类型负载均衡所使用的证书,是否在ELB服务侧被修改。 解决方案 该问题的出现,一般是由于用户在CCE中创建HTTPS类型Ingress后,直接在ELB证书管理功能中修改了Ingress引用的证书,导致CCE集
性地对该容器的80端口发起TCP连接,如果连接成功则证明检查成功,否则检查失败。 图2 TCP 端口检查 执行命令检查 命令检查是一种强大的检查方式,该方式要求用户指定一个容器内的可执行命令,集群会周期性地在容器内执行该命令,如果命令的返回结果是0则检查成功,否则检查失败。 对于
轮转证书文件数量检查 检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/op
密钥数据中上传的证书文件和私钥文件必须是配套的,不然会出现无效的情况。 解决方法 一般情况下,您需要从证书提供商处获取有效的合法证书。如果您需要在测试环境下使用,您可以自建证书和私钥,方法如下: 自建的证书通常只适用于测试场景,使用时界面会提示证书不合法,影响正常访问,建议您选择手动上传合法证书,以便通过浏览器校验,保证连接的安全性。
Ingress与ELB配置一致性检查 检查项内容 检查到您集群中Ingress配置与ELB配置不一致,请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。
节点限制检查异常处理 检查节点是否可用 检查节点操作系统是否支持升级 检查节点是否含有非预期的节点池标签 检查K8s节点名称是否与云服务器保持一致 2 升级管控检查异常处理 检查集群是否处于升级管控中。 3 插件检查异常处理 检查插件状态是否正常 检查插件是否支持目标版本 4 Helm模板检查异常处理
Secret落盘加密特性兼容性检查异常处理 检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server;
字段。相反,探测将无限期运行,甚至超过其配置的截止日期,直到返回结果。 若用户未配置,默认值为1秒。升级后此字段生效,如果探测时间超过1秒,可能会导致应用健康检查失败并频繁重启。 升级前检查您使用了exec probe的应用的probe timeouts是否合理。 CCE的v1.19及以上版本的kube-apiserver要求客户侧webhook
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
CoreDNS配置一致性检查异常处理 检查项内容 检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 解决方案 您可在明确差异配置后,单独升级CoreDNS插件。 配置Kubectl命
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
ELB IPv4私网地址检查异常处理 检查项内容 检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。 解决方案 解决方案一:删除关联无IPv4私网地址ELB的负载均衡型Service。 解决方案二:为无IPv4私网IP地址的ELB绑定一个私网IP。步骤如下:
节点挂载检查异常处理 检查项内容 检查节点上默认挂载目录及软链接是否被手动挂载或修改。 v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、1.28.6-r0、v1.29.2-r0及以上版本的集群将软链修改为挂载绑定。 节点为非共享磁盘场景 CCE默认挂载/va
升级前检查异常问题排查 升级前检查项 节点限制检查异常处理 升级管控检查异常处理 插件检查异常处理 Helm模板检查异常处理 Master节点SSH连通性检查异常处理 节点池检查异常处理 安全组检查异常处理 残留待迁移节点检查异常处理 K8s废弃资源检查异常处理 兼容性风险检查异常处理
排水任务检查异常处理 检查项内容 检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage
插件检查异常处理 检查项内容 当前检查项包括以下内容: 检查插件状态是否正常 检查插件是否支持目标版本 解决方案 问题场景一:插件状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“插件中心”处查看并处理处于异常状态的插件。 图1 查看插件状态 问题场景二:集群升级的目标版本已经不支持该插件
GPU插件检查异常处理 检查项内容 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不