检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本案例的子网中已经完成该设置,其中用户可以在该VPC子网内的节点(ECS)进行域名解析,也说明已完成该设置,如下图: 但是在容器内进行解析却提示bad address无法解析域名返回地址,如下图: 登录CCE控制台查看该集群的插件安装情况。 如果已安装插件列表中没有coredns插件,可能是用户卸载了该插件等原因导致。
everest-csi-driver-wtrk6 1/1 Running 0 12m PV 来看一下PV是如何描述持久化存储,例如在SFS中创建了一个文件存储,这个文件存储ID为68e4a4fd-d759-444b-8265-20dc66c8c502,挂载地址为sfs-nas01
节点配置文件检查异常处理 检查项内容 检查节点上关键组件的配置文件是否存在。 当前检查文件列表如下: 文件名 文件内容 备注 /opt/cloud/cce/kubernetes/kubelet/kubelet kubelet命令行启动参数 - /opt/cloud/cce/kub
K8s废弃资源检查异常处理 检查项内容 检查集群是否存在对应版本已经废弃的资源。 解决方案 问题场景一: 1.25及以上集群中的service存在废弃的annotation:tolerate-unready-endpoints 报错日志信息如下: some check failed
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控
点时的最大实例数配置。理想情况下,容器引擎空间需要大于容器使用的磁盘总空间,即:容器引擎和容器镜像空间(默认占90%) > 容器数量 * Pod容器空间(basesize)。否则,可能会引起节点分配的容器引擎空间不足,从而导致容器启动失败。 图4 创建节点时的最大实例数配置 对于
存储在WAL中的样本的最高时间戳与远程写入成功的最高时间戳的比率 远程写流量 字节/秒 远程写入的速率 当前队列数 个 当前用于并行发送到远程存储的分片数 最大队列数 个 可用于并行发送到远程存储的分片数的最大值 最小队列数 个 可用于并行发送到远程存储的分片数的最小值 期望队列数
Ubuntu内核与GPU驱动兼容性提醒 检查项内容 检查到集群中同时使用GPU插件和Ubuntu节点,提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创
03 535.54.03 470.141.03 535.54.03 470.141.03 470.141.03 470.141.03 相关链接 Nvidia官方驱动下载入口 主流Tesla系列各驱动版本配套说明 父主题: GPU节点驱动版本
erd。 如果您仍想在1.27以上集群中创建并使用docker节点,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。 父主题: 升级前检查异常问题排查
String 参数解释: 选择密钥对方式登录时的密钥对名称。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及 userPassword 否 UserPassword object 参数解释: 选择密码方式登录时的账号密码信息,之后可通过此账号密码登录节点。 约束限制: 不涉及 表8
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server;
0到1.9.5p1的所有稳定版本。成功利用此漏洞,任何没有特权的用户都可以在易受攻击的主机上获得root特权。 sudo是一个功能强大的实用程序,大多数基于Unix和Linux的操作系统都包含sudo。它允许用户使用其他用户的安全特权运行程序。 表1 漏洞信息 漏洞类型 CVE-ID
控制节点组件健康检查异常处理 检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
Master节点规格检查异常处理 检查项内容 检查本次升级集群的Master节点规格与实际的Master节点规格是否一致。 解决方案 该问题一般因为您进行过Master节点改造,此次升级可能会将您的Master节点重置为标准版本; 如您无法确认影响,请您提交工单联系运维人员支撑。
Secret落盘加密特性兼容性检查异常处理 检查项内容 检查本次升级的目标版本是否支持Secret落盘加密特性,若不支持则不允许开启Secret落盘加密特性的集群升级至该版本。 解决方案 CCE从v1.27版本开始支持Secret落盘加密特性,开放该特性的版本号如下: v1.27集群:v1
rd。 如果您仍想在1.27以上集群中创建并使用docker节点池,可跳过该告警,但推荐您尽快切换至containerd,它提供了更出色的用户体验和更强大的功能。 父主题: 升级前检查异常问题排查
用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。 解决方案 登录节点。 重新创建PV和VG,但是创建时报错: root@host1:~# pvcreate /dev/vdb
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题: