检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查节点镜像数量异常处理 检查项内容 检查到您的节点上镜像数量过多(>1000个),可能导致docker启动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
查询指定节点池支持配置的参数内容 功能介绍 该API用于查询指定节点池支持配置的参数内容。 调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{nodepo
CCE集群的节点是否支持绑定多网卡? CCE集群的节点不支持绑定多网卡,请勿手动绑定多网卡,否则会对集群的网络访问造成影响。 父主题: 网络规划
类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀 kube-scheduler调度器在分配Pod时不会考虑应用的实际负载,如果应用负载不均匀可能导致某些节点的负载较高,而其他节点的负载较低。
修改指定节点池配置参数的值 功能介绍 该API用于修改CCE服务下指定节点池配置参数的值。 调用方法 请参见如何调用API。 URI PUT /api/v3/projects/{project_id}/clusters/{cluster_id}/nodepools/{nodepo
/etc/default/docker docker配置文件 containerd运行时或Centos-Group机器不检查 解决方案 建议您进行重置节点操作,参考重置节点。如果您不想重置节点,请联系技术支持人员恢复配置文件后进行升级。 父主题: 升级前检查异常问题排查
通过修改左下角的单页最大显示条数,您可至多一次性添加20台服务器至安全组中。 加入新的安全组后,节点仍保留原安全组。如需移除,请单击原安全组的“管理实例”按钮,并勾选其中的节点服务器进行移除。 父主题: 安全加固
Volcano批量调度系统:加速AI计算的利器 Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang
节点NetworkManager检查异常处理 检查项内容 检查节点上的NetworkManager状态是否正常。 解决方案 请登录该节点,执行systemctl is-active NetworkManager命令查询NetworkManager服务运行状态。若回显状态异常,请执行systemctl
当按需节点池中的节点转成包年/包月后,该节点不支持弹性缩容。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“
节点交换区检查异常处理 检查项内容 检查集群CCE节点的上是否开启了交换区。 解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
cgroup统计资源异常导致kubelet驱逐Pod 故障现象 ARM架构节点上,cgroup统计资源异常导致kubelet驱逐Pod,节点无法正常使用。 kubelet一直在驱逐pod,把容器全终止之后还是认为内存不足。 此时实际资源使用正常。 查看/sys/fs/cgroup
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般情况下,
节点sock文件挂载检查异常处理 检查项内容 检查节点上的Pod是否直接挂载docker/containerd.sock文件。升级过程中Docker/Containerd将会重启,宿主机sock文件发生变化,但是容器内的sock文件不会随之变化,二者不匹配,导致您的业务无法访问D
重置节点”,详情请参见重置节点。节点重置完毕后,重试检查任务。 图1 重置节点 重置节点会重置所有节点标签,可能影响工作负载调度,请在重置节点前检查并保留您手动为该节点打上的标签。 解决方案二 新建节点后,删除问题节点。 父主题: 升级前检查异常问题排查
节点上CCE Agent版本检查异常处理 检查项内容 检测当前节点的CCE包管理组件cce-agent是否为最新版本。 解决方案 问题场景一: 错误信息为“you cce-agent no update, please restart it”。 该问题是由于cce-agent没有
canal-agent 回显如图: 解决办法 如果您希望继续使用该节点资源,建议重置所属集群中的CentOS 7.6节点,以升级节点上网络组件到最新版本,具体操作请参考重置节点。 如果您希望删除该隐患节点后重新购买,具体操作请参考删除节点、购买节点。 父主题: 网络异常问题排查
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status
Master节点时区检查 检查项内容 检查到您集群中Master节点实际时区与集群时区不一致,滚动升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次