正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题场景二:systemctl status命令执行失败 检查到节点systemctl status命令不可用,将影响众多检查项,请登录节点排查下列命令的可用性。 systemctl status kubelet 如果上述操作无法解决,建议您进行重置节点操作,参考重置节点。 父主题: 升级前检查异常问题排查
节点命令行检查异常处理 检查项内容 检查节点中是否存在升级所必须的命令。 解决方案 该问题一般由于节点上缺少集群升级流程中使用到的关键命令,可能会导致集群升级失败。 报错信息如下: __error_code#ErrorCommandNotExist#chage command is
类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀 kube-scheduler调度器在分配Pod时不会考虑应用的实际负载,如果应用负载不均匀可能导致某些节点的负载较高,而其他节点的负载较低。
检查节点镜像数量异常处理 检查项内容 检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
伴随容器自动迁移 多节点挂载 本地磁盘存储 支持 不支持 不支持 云硬盘存储卷(EVS) 支持 支持 不支持 对象存储卷(OBS) 支持 支持 支持,可由多个节点或工作负载共享 文件存储卷(SFS) 支持 支持 支持,可由多个节点或工作负载共享 极速文件存储卷(SFS Turbo) 支持
您可以执行以下步骤清理未使用的镜像: 使用containerd容器引擎的节点: 查看节点上的本地镜像。 crictl images -v 确认镜像无需使用,并通过镜像ID删除无需使用的镜像。 crictl rmi {镜像ID} 使用docker容器引擎的节点: 查看节点上的本地镜像。 docker images
查询指定节点池支持配置的参数内容 功能介绍 该API用于查询指定节点池支持配置的参数内容。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{nodepo
canal-agent 回显如图: 解决办法 如果您希望继续使用该节点资源,建议重置所属集群中的CentOS 7.6节点,以升级节点上网络组件到最新版本,具体操作请参考重置节点。 如果您希望删除该隐患节点后重新购买,具体操作请参考删除节点、购买节点。 父主题: 网络异常
通过修改左下角的单页最大显示条数,您可至多一次性添加20台服务器至安全组中。 加入新的安全组后,节点仍保留原安全组。如需移除,请单击原安全组的“管理实例”按钮,并勾选其中的节点服务器进行移除。 父主题: 安全加固
/etc/default/docker docker配置文件 containerd运行时或Centos-Group机器不检查 解决方案 建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
cgroup统计资源异常导致kubelet驱逐Pod 故障现象 ARM架构节点上,cgroup统计资源异常导致kubelet驱逐Pod,节点无法正常使用。 kubelet一直在驱逐pod,把容器全终止之后还是认为内存不足。 此时实际资源使用正常。 查看/sys/fs/cgroup
挂载文件存储的节点,Pod创建删除卡死 故障现象 在挂载文件存储(SFS或SFS Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件
功创建节点。安全组需要满足的端口规则根据集群类别存在差异,详情请参见集群安全组规则配置。 新安全组只对新创建或纳管的节点生效,存量节点需要手动修改节点安全组规则,即使对存量节点进行重置,也仍会使用原安全组。如需批量修改存量节点的安全组设置,请参考如何批量修改集群node节点安全组?。
节点CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题为cce-agent无需更新,
强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。 指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。
节点配置一致性检查异常处理 检查项内容 在升级集群版本至v1.19及以上版本时,将对您的节点上的Kubenertes组件的配置进行检查,检查您是否后台修改过配置文件。 /opt/cloud/cce/kubernetes/kubelet/kubelet /opt/cloud/cce
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
Master节点SSH联通性检查异常处理 检查项内容 检查当前CCE是否能连接至您的Master节点。 解决方案 请联系技术支持人员排查。 父主题: 升级前检查异常问题排查