检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1.27及以上集群。当前CCE集群版本和OS的配套关系请参见节点操作系统说明。 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理“页面查看问题节点池,并单击节点池的“更新”。根据升级前检查的提示信息,修改支持的操作系统,并单击“确定”。
er节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
检查节点是否需要迁移。 解决方案 该问题由于节点拉包组件异常或节点由比较老的版本升级而来,导致节点上缺少关键的系统组件导致。 解决方案一 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面,单击对应节点的“更多 > 重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。
检查节点上是否存在不可访问的挂载点。 解决方案 问题场景:节点上存在不可访问的挂载点 节点存在不可访问的挂载点,通常是由于该节点或节点上的Pod使用了网络存储nfs(常见的nfs类型有obsfs、sfs等),且节点与远端nfs服务器断连,导致挂载点失效,所有访问该挂载点的进程均会出现D状态卡死。
0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创或者重置Ubuntu节点时,可能遇到该问题,请编辑GPU插件中的驱动版本至535.161.08及以上,然后重启该节点。 父主题: 升级前检查异常问题排查
/usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
-Group机器不检查 解决方案 建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。 父主题: 升级前检查异常问题排查
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题: 升级前检查异常问题排查
步骤一:创建VPC对等连接 登录对等连接控制台。 在页面右上角区域,单击“创建对等连接”。 进入“创建对等连接”页面。 根据界面提示设置对等连接参数。 参数详细说明请参见表1。 图2 创建对等连接 表1 创建对等连接-参数说明 参数 说明 取值样例 对等连接名称 必选参数。 此处填写对等连接的名称。
公网访问CCE部署的服务并上传OBS,为何报错找不到host? 线下机器访问CCE部署的服务并上传OBS,报错找不到host,报错截图如下: 问题定位 服务收到http请求之后,向OBS传输文件,这些报文都会经过Proxy。 传输文件总量很大的话,会消耗很多资源,目前proxy分
单击“确定”。 问题场景二:集群配置管理异常 修复集群异常配置步骤如下: 登录CCE控制台,进入“配置中心”。 选择“网络配置”,修改“节点预热容器网卡数回收阈值”,使其不超过256。 单击“确认配置”。 父主题: 升级前检查异常问题排查
NetworkManager命令后重新查询状态。 如果上述操作无法解决,建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
控制台访问异常问题排查 访问容器组日志时报错 若您在查看容器组日志时遇到该问题,而集群其他资源均可正常访问,您可以按以下步骤排查。 登录CCE控制台,单击集群名称进入集群。 选择左侧导航栏的“工作负载”,查看工作负载容器组运行状态是否为“运行中”,若不是,请根据工作负载状态异常定位方法进行排查。
v1.29集群:v1.29.4-r0及以上 其他更高版本集群 如果升级前集群已开启Secret落盘加密特性,则目标集群的版本同样需要支持Secret落盘加密特性,您需要选择满足条件的版本进行升级。 父主题: 升级前检查异常问题排查
检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响; 如
交平台登录等)的API接口,则需要配置CORS允许跨域访问。 使用内容分发网络CDN:静态资源可能通过CDN提供,而CDN域名与主站域名不同,需要使用跨域访问来加载这些资源。 ELB Ingress的跨域访问功能依赖ELB能力,使用该功能前请提交工单申请开通ELB跨域访问能力。 为ELB
全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。 当前CCE不建议该类节点进行升级,建议您在升级前重置节点至标准内核版本。 问题场景二:特殊版本镜像存在缺陷 检查到本次升级涉及1.17 欧拉2.8 Arm镜像,该版本镜
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status