检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
解决方案: 若租户已经欠费,请尽快续费。 若ECS节点资源不足,使用其他规格节点替代。 若ECS或内存配额不足,请扩大配额。 若ECS容量校验不通过,请重新校验。 父主题: 节点池
解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。
解决方案 若您的节点的运行时非containerd,您可通过节点重置功能重置节点的运行时为containerd。 如果您仍想在1.27以上集群中创建并使用docker节点,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。
表1 检查污点列表 污点名称 污点影响 node.kubernetes.io/upgrade NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命令,具体请参见通过kubectl连接集群。
解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。
解决方案 根据诊断分析中的日志排查哪些资源需要整改,常见场景是在Ingress对接的监听器下配置了其他的转发策略,导致监听器下转发策略与集群Ingress中配置的转发策略不一致,需要将您增加的转发策略迁移到其他监听器下,或者在Ingress中配置上该转发策略。
解决方案 当节点已出现thinpool空间耗尽时,可将部分业务迁移至其他节点实现业务快速恢复。但对于此类问题,建议采用以下方案从根因上解决问题: 方案1: 合理规划业务分布及数据面磁盘空间,避免和减少出现业务容器数*basesize > 节点thinpool空间大小场景。
解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。 执行rpm -qa | grep docker | grep euleros命令,如果结果不为空,说明节点上使用的docker为Euler-docker。
解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。
华为云CCE团队已经紧急修复Linux内核SACK漏洞,并已发布解决方案。 参考链接: https://www.suse.com/support/kb/doc/?
解决方案 执行如下命令,查看节点的最大PID数和节点当前的最大PID。
以上逻辑通过Kubernetes源码中的EventCorrelate方法实现,您可以查看社区的设计方案了解详情。 该问题为Kubernetes设计机制导致,因此您可以无需关注。 父主题: 节点池
解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart ntpd命令后重新查询状态。
命令行启动参数 - /etc/sysconfig/docker docker配置文件 containerd运行时或Debain-Group机器不检查 /etc/default/docker docker配置文件 containerd运行时或Centos-Group机器不检查 解决方案
图5 IAM授权 单击“下一步”,您可以根据实际需要选择授权范围方案,使授权范围更细化,本示例选择“所有资源”,单击“确定”。 表3 授权范围方案 方案 说明 所有资源 授权后,IAM用户可以根据权限使用账号中所有资源,包括企业项目、区域项目和全局服务资源。
详情参见高危操作及解决方案。 反例: 用户升级了节点内核,可能会导致容器网络异常; 用户在节点上安装了开源的Kubernetes网络插件,导致容器网络异常; 用户在节点上将/var/paas,/mnt/paas/kubernetes删除,导致该节点异常。
解决方案 删除相关报错资源,重新通过helm创建。 查看报错内容,确认产生冲突的资源。请您关注“Unable to continue with install:”后的信息,例如以下报错为default命名空间中的test-nginx工作负载出现冲突。
解决方案 登录CCE节点(弹性云服务器)并删除cpu_manager_state文件。
解决方案 查看Pod的事件,确认当前Pod中未启动的Init容器是否存在异常。具体操作,请参见Pod事件查看方法。 查看Pod中未启动的Init容器的日志,通过日志内容排查问题。具体操作,请参见容器日志查看方法。 查看Pod的配置,确认未启动的Init容器配置是否正常。
解决方案 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 通过Pod内存监控查看内存增长曲线,确定异常出现时间。