检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点池运行时检查异常处理 检查项内容 该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。
节点OS检查异常处理 检查项内容 检查节点操作系统内核版本是否为CCE支持的版本。 解决方案 问题场景一:节点镜像非CCE标准镜像 CCE节点运行依赖创建时的初始标准内核版本,CCE基于该内核版本做了全面的兼容性测试,非标准的内核版本可能在节点升级中因兼容性问题导致节点升级失败,详情请参见高危操作及解决方案。
节点journald检查异常处理 检查项内容 检查节点上的journald状态是否正常。 解决方案 请登录该节点,执行systemctl is-active systemd-journald命令查询journald服务运行状态。若回显状态异常,请执行systemctl restart
节点挂载检查异常处理 检查项内容 检查节点上默认挂载目录及软链接是否被手动挂载或修改。 v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、1.28.6-r0、v1.29.2-r0及以上版本的集群将软链修改为挂载绑定。 节点为非共享磁盘场景 CCE默认挂载/va
Secret落盘加密特性兼容性检查异常处理 检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
String 检查项名称 kind String 检查项类型,取值如下 Exception: 异常类,需要用户解决 Risk:风险类,用户确认后可选择跳过 group String 检查项分组,取值如下 LimitCheck: 集群限制检查 MasterCheck:控制节点检查 NodeCheck:用户节点检查
增强型CPU管理策略检查异常处理 检查项内容 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示:
K8s废弃API检查异常处理 检查项内容 系统会扫描过去一天的审计日志,检查用户是否调用目标K8s版本已废弃的API。 由于审计日志的时间范围有限,该检查项仅作为辅助手段,集群中可能已使用即将废弃的API,但未在过去一天的审计日志中体现,请您充分排查。 解决方案 检查说明 根据检查结果,检
everest插件版本限制检查异常处理 检查项内容 检查集群当前everest插件版本是否存在兼容性限制。 表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼
OpenKruise插件兼容性检查异常处理 检查项内容 检查集群升级时,OpenKruise插件是否存在兼容性问题。 解决方案 Kubernetes社区在1.24版本移除了对dockershim的支持。CCE为兼顾用户使用docker运行时的习惯,在CCE的v1.25及以上的集群
ELB IPv4私网地址检查异常处理 检查项内容 检查集群内负载均衡类型的Service所关联的ELB实例是否包含IPv4私网IP。 解决方案 解决方案一:删除关联无IPv4私网地址ELB的负载均衡型Service。 解决方案二:为无IPv4私网IP地址的ELB绑定一个私网IP。步骤如下:
节点时钟同步服务器检查异常处理 检查项内容 检查节点时钟同步服务器ntpd或chronyd是否运行正常。 解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
节点状态检查 检查项内容 集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
节点关键目录文件权限检查异常处理 检查项内容 检查CCE使用的目录/var/paas内文件的属主和属组是否都为paas。 解决方案 问题场景一: 错误信息为“xx file permission has been changed!”。 解决方案: CCE使用/var/paas目录
节点配置一致性检查异常处理 检查项内容 在升级集群版本至v1.19及以上版本时,将对您的节点上的Kubenertes组件的配置进行检查,检查您是否后台修改过配置文件。 /opt/cloud/cce/kubernetes/kubelet/kubelet /opt/cloud/cce
K8s节点污点检查异常处理 检查项内容 检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命
K8s组件内存资源限制检查异常处理 检查项内容 检查K8s组件例如etcd、kube-controller-manager等组件是否资源超出限制。 解决方案 方案一:适当减少K8s资源。 方案二:扩大集群规格,详情请参见变更集群规格。 父主题: 升级前检查异常问题排查
CoreDNS配置一致性检查异常处理 检查项内容 检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 解决方案 您可在明确差异配置后,单独升级CoreDNS插件。 配置Kubectl命