检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查Node节点中Python命令是否可用。 检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
检查集群是否满足滚动升级条件 检查项内容 检查到您的集群暂时不满足滚动升级条件。 解决方案 该检查失败一般由于资源租户的资源配额不足引起,无法支持滚动升级; 请联系运维人员扩充资源之后重新检查。 父主题: 升级前检查异常问题排查
自建IDC与CCE集群共享域名解析 自建IDC与CCE集群共享域名解析方案概述 通过DNS Endpoint做级联解析 修改CoreDNS配置直接解析 父主题: 网络
建包周期的云硬盘存储卷时,要求包含支付权限,因此需要为cce_cluster_agency委托中添加bss:order:pay权限。 解决方案 您可以创建一个自定义策略,为该策略添加bss:order:pay权限,然后将该策略授权给cce_cluster_agency委托。 创建自定义策略。
Polkit(PolicyKit)是一个用于在类Unix操作系统中控制系统范围权限的组件。pkexec是Plokit框架中的一部分,执行具有提升权限的命令,是sudo的替代方案。请使用Polkit的用户及时安排自检并做好安全加固。 参考链接:https://www.qualys.com/2022/01/25/cve-2021-4034/pwnkit
确认(SACK)功能相关,攻击者可远程发送特殊构造的攻击包造成拒绝服务攻击,导致服务器不可用或崩溃。 华为云CCE团队已经紧急修复Linux内核SACK漏洞,并已发布解决方案。 参考链接: https://www.suse.com/support/kb/doc/?id=7023928
io"是否被删除。 检查集群关键CRD "network-attachment-definitions.k8s.cni.cncf.io"是否被删除。 解决方案 如出现该检查项异常,请联系技术支持人员。 父主题: 升级前检查异常问题排查
节点系统参数检查异常处理 检查项内容 检查您节点上默认系统参数是否被修改。 解决方案 如您的bms节点上bond0网络的mtu值非默认值1500,将出现该检查异常。 非默认参数可能导致业务丢包,请改回默认值。 父主题: 升级前检查异常问题排查
集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server;
控制节点组件健康检查异常处理 检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
space in thin pool or use dm.min_free_space option to change behavior 解决方案: 方案一:清理镜像 您可以执行以下步骤清理未使用的镜像: 使用containerd容器引擎的节点: 查看节点上的本地镜像。 crictl images
问题原因 无法连接镜像仓库,网络不通。SWR仅支持直接拉取Docker官方的镜像,其他仓库的镜像需要连接公网。 解决方案: 方案一:给需要下载镜像的节点绑定公网IP。 方案二:先将镜像上传到SWR,然后从SWR拉取镜像。 排查项八:拉取公共镜像达上限 问题现象 创建工作负载时报如下错误。
Pod重建风险检查异常处理 检查项内容 检查当前集群升级重启kubelet时,节点上运行的GPU/NPU业务容器是否可能发生重建,造成业务影响。 解决方案 请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重建带来的影响; 如需帮助,请您提交工单联系运维人员获取支持。 父主题:
工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。 父主题: 工作负载异常问题排查
Turbo集群的集群信息下的“节点管理”处,查看“运行时版本”,若运行时为containerd且版本号小于 1.4.1-96则涉及该漏洞。 漏洞修复方案 使用可信的镜像,避免使用来源不明的第三方镜像,推荐使用容器镜像服务SWR。 CCE已提供大于1.4.1-96的containerd版本,请迁移至符合要求的节点。
aseagent/baseagent.log安装日志,发现如下报错: 查看节点LVM设置,发现/dev/vdb没有创建LVM逻辑卷。 解决方案 手工创建逻辑卷: pvcreate /dev/vdb vgcreate vgpaas /dev/vdb 然后在界面重置节点后节点状态正常。
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证