检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
kubernetes.io/zone。 正常升级流程不会触发此场景。 在Master升级完成后尽量避免使用暂停升级功能,快速升级完Node节点。 若Node节点升级失败且无法修复,请尽快驱逐此节点上的应用,请联系技术支持人员,跳过此节点升级,在整体升级完毕后,重置该节点。 CCE的v1.15版本集群及v1
安全组的规则是否被删除。 仅VPC网络模型的集群执行该检查项,非VPC网络模型的集群将跳过该检查项。 解决方案 请登录VPC控制台,前往“访问控制 > 安全组”,在搜索框内输入集群名称,此时预期过滤出两个安全组: 安全组名称为“集群名称-node-xxx”,此安全组关联CCE用户节点。
/usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
v1.29集群:v1.29.4-r0及以上 其他更高版本集群 如果升级前集群已开启Secret落盘加密特性,则目标集群的版本同样需要支持Secret落盘加密特性,您需要选择满足条件的版本进行升级。 父主题: 升级前检查异常问题排查
erd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。 父主题: 升级前检查异常问题排查
er节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
-Group机器不检查 解决方案 建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。 父主题: 升级前检查异常问题排查
检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响; 如
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1.27及以上集群。当前CCE集群版本和OS的配套关系请参见节点操作系统说明。 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理“页面查看问题节点池,并单击节点池的“更新”。根据升级前检查的提示信息,修改支持的操作系统,并单击“确定”。
检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。 父主题: 升级前检查异常问题排查
NetworkManager命令后重新查询状态。 如果上述操作无法解决,建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
录节点手动重启cce-agent。 解决方式:登录节点执行: systemctl restart cce-agent 执行完毕后,重新执行升级检查。 问题场景二: 错误信息为“your cce-agent is not the latest version”。 该问题为cce-a
v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制,无法随集群升级,请联系技术支持人员。 父主题: 升级前检查异常问题排查