检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
节点挂载点检查异常处理 检查项内容 检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂
节点DNS检查异常处理 检查项内容 当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
节点运行时检查异常处理 检查项内容 该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。
CRD检查异常处理 检查项内容 当前检查项包括以下内容: 检查集群关键CRD "packageversions.version.cce.io"是否被删除。 检查集群关键CRD "network-attachment-definitions.k8s.cni.cncf.io"是否被删除。
Secret落盘加密特性兼容性检查异常处理 检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1
ELB监听器访问控制配置项检查异常处理 检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
Helm模板检查异常处理 检查项内容 检查当前HelmRelease记录中是否含有目标集群版本不支持的K8s废弃API,可能导致升级后helm模板不可用。 解决方案 将HelmRelease记录中K8s废弃API转换为源版本和目标版本均兼容的API。 该检查项解决方案已在升级流程
Master节点规格检查异常处理 检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。
安全组检查异常处理 检查项内容 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为Master节点安全组的规则是否被删除。 仅VPC网络模型的集群执行该检查项,非VPC网络模型的集群将跳过该检查项。 解决方案 请登录VPC控制台,前往“访问控制 > 安全组”,在搜索
请确保该端口在Pod所在节点已被监听,否则会影响健康检查结果。 健康检查初始等待时间 开始健康检查的初始等待时间(秒) 参数名 取值范围 默认值 是否允许修改 作用范围 delay 1-50 5 允许 CCE Standard/CCE Turbo 健康检查的超时时间 健康检查的超时时间(秒) 参数名 取值范围
Ingress与ELB配置一致性检查 检查项内容 检查到您集群中Ingress配置与ELB配置不一致,请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。
节点Kubelet检查异常处理 检查项内容 检查节点kubelet服务是否运行正常。 解决方案 问题场景一:kubelet状态异常 kubelet异常时,节点显示不可用,请参考集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 问题场景二:cce-pause版本异常 检测
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
节点Ready检查异常处理 检查项内容 检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
节点磁盘检查异常处理 检查项内容 当前检查项包括以下内容: 检查节点关键数据盘使用量是否满足升级要求 检查/tmp目录是否存在500MB可用空间 解决方案 节点升级过程中需要使用磁盘存储升级组件包,使用/tmp目录存储临时文件。 问题场景一:Master节点磁盘使用量不满足升级要求