检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点运行时检查异常处理 检查项内容 该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。
Master节点SSH连通性检查异常处理 检查项内容 该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。
ELB监听器访问控制配置项检查异常处理 检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。
节点配置文件检查异常处理 检查项内容 检查节点上关键组件的配置文件是否存在。 当前检查文件列表如下: 文件名 文件内容 备注 /opt/cloud/cce/kubernetes/kubelet/kubelet kubelet命令行启动参数 - /opt/cloud/cce/kub
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。
节点Sudo检查异常处理 检查项内容 检查当前节点sudo命令,sudo相关文件是否正常。 解决方案 问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不
节点池检查异常处理 检查项内容 检查节点池状态是否正常。 检查升级后节点池操作系统或容器运行时是否支持。 解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1
节点池扩容失败 排查思路 请根据节点池扩容失败的具体事件信息确定问题原因,如表1所示。 表1 节点池扩容失败 事件信息 问题原因 解决方案 ...call fsp to query keypair fail, error code : Ecs.0314, reason is : the
everest插件版本限制检查异常处理 检查项内容 检查集群当前everest插件版本是否存在兼容性限制。 表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
OpenKruise插件兼容性检查异常处理 检查项内容 检查集群升级时,OpenKruise插件是否存在兼容性问题。 解决方案 Kubernetes社区在1.24版本移除了对dockershim的支持。CCE为兼顾用户使用docker运行时的习惯,在CCE的v1.25及以上的集群
K8s废弃资源检查异常处理 检查项内容 检查集群是否存在对应版本已经废弃的资源。 解决方案 问题场景一: 1.25及以上集群中的service存在废弃的annotation:tolerate-unready-endpoints 报错日志信息如下: some check failed
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求
CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导致用户在节点容器内解析域名会偶发失败的状况。 解决方案 建议您通过修改coredns插件的存根域更新用户集群子网DNS配置,修改方法请参见为CoreDNS配置存根域。 父主题: 域名DNS
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
节点挂载点检查异常处理 检查项内容 检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂
Secret落盘加密特性兼容性检查异常处理 检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1
增强型CPU管理策略检查异常处理 检查项内容 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示:
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命