检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题描述 在节点负载压力比较大的场景下,可能存在NPD进程资源残留的问题。 问题现象 登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。
0 0 ... 解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。 图1 查询是否为共享磁盘 节点挂载检查异常如何解决 取消手动修改的挂载点。
该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。 如果您仍想在1.27以上集群
系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案 对于升级详情页面中跳过的节点,请在升级完毕后重置节点。 重置节点会重置所有节点标签,可能影响工作负载调度,请在重置节点前检查并保留您手动为该节点打上的标签。
户提升资源利用率,实现降本增效的云原生混部解决方案。 如上图所示,混部不是简单将小集群合并成一个大集群,然后将多个不同的业务部署在同一个集群中那么简单,而需要确保用户的应用能够部署到合适的位置,并能保障其需要的资源。这也是云原生混部解决方案中的两个核心设计:全域统一调度和资源分级管控。
节点Ready检查异常处理 检查项内容 检查集群内节点是否Ready。 解决方案 问题场景一:节点状态显示不可用 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”,筛选出状态不可用的节点后,请参照控制台提供的“修复建议”修复该节点后重试检查。 问题场景二:节点状态与实际不符
该告警通常发生在低版本集群升级到v1.27及以上集群。CCE不建议您在1.27以上版本集群中继续使用docker,并计划在未来移除对docker的支持。 解决方案 若您的节点池的运行时非containerd,您可通过更新节点池功能将节点池的运行时修改为containerd。 如果您仍想在1.27
查看节点池配置的规格是否资源不足。 租户的ECS或内存配额是否不足。 如果一次创建节点太多,可能会出现租户的ECS容量校验不过的情况发生。 解决方案: 若租户已经欠费,请尽快续费。 若ECS节点资源不足,使用其他规格节点替代。 若ECS或内存配额不足,请扩大配额。 若ECS容量校验不通过,请重新校验。
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。 执行rpm -qa | grep
增强型CPU管理策略检查异常处理 检查项内容 检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示:
ing状态。 问题根因 Kubernetes为了防止误删除PV和PVC导致数据丢失,存在数据保护机制,无法使用delete命令直接删除。 解决方案 执行以下命令,先解除保护机制,再删除PV或PVC。 如果已经使用kubectl delete命令删除PV或PVC,会一直处在Term
y重定向到新业务。 开源现状 目前开源社区ipvlan L2E模式仍存在此问题,已向开源社区反馈,待确认更优方案。 解决方法 打印Dead loop问题本身无需解决。 但推荐服务Pod使用优雅退出,在业务真正终止服务前,优先将Pod设置为删除中的状态,待业务处理完毕请求后再退出。
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
Secret落盘加密特性兼容性检查异常处理 检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1.27.10-r0及以上 v1
公网访问CCE部署的服务并上传OBS,为何报错找不到host? Pod接口ExtendPathMode: PodUID如何与社区client-go兼容? 创建存储卷失败如何解决? CCE容器云存储PVC能否感知底层存储故障? 通用文件存储(SFS 3.0)在OS中的挂载点修改属组及权限报错 无法使用kubectl命令删除PV或PVC
检查节点上是否存在集群升级需要使用到的污点。 表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看对应节点kubelet版本,以下为正常回显:
GPU插件检查异常处理 检查项内容 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。 解决方案 根据诊断分析中的日志排查哪些资源需要整改,常见场景是在Ingress对接的监听器下配置了其他的转发策略,导致监听器下转发策略与集群I
自动续费”按钮。您也可以批量选择多个节点,单击顶部功能栏中的“更多>开通自动续费”按钮。然后在弹窗中对需要开通自动续费的节点进行确认。 在跳转的“设为自动续费”页面中,设置自动续费的参数。 选择续费时长:支持设置每次续费的时长,每次续费最短为1个月,最长为1年。 自动续费次数:勾
检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/opt/cloud/cce/kub