检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
runc的符号链接以及条件竞争漏洞,最终可能会导致容器逃逸,使攻击者能够访问宿主机的文件系统。 您需要检查节点上的runc版本是否<=1.0.0-rc94,以判断是否受该漏洞影响。 漏洞处理方案 限制不受信任的用户拥有创建工作负载权限,尤其是拥有配置卷挂载参数的权限。 限制容器所拥有的权限。
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
ntainerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。 父主题: 升级前检查异常问题排查
并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
中设置的规格不一致。 问题影响 节点变更规格后,由于CPU、内存、网卡配额(可用IP地址)等节点参数发生变化,可能会导致该节点所在的节点池弹性伸缩行为与预期不符。 例如,节点进行规格变更后,增加CPU和内存(从2U4G变更4U8G)。 节点池扩容时,将根据节点池的节点模板信息计算
"cluster_id" : "a870253f-5dc7-11ee-bf71-0255ac100b03", "cluster_name" : "sfs-turbo-test", "create_at" : "2023-11-14T20:30:57+08:00", "description"
"cluster_id" : "a870253f-5dc7-11ee-bf71-0255ac100b03", "cluster_name" : "sfs-turbo-test", "create_at" : "2023-11-14T20:30:57+08:00", "description"
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
异常事件排查查找异常的解决方案。 如果Service不存在异常事件,则一般为访问类问题或周边服务配置引入的问题,可参考根据常见问题对比排查查找异常的解决方案。 根据Service异常事件排查 不同异常事件的解决方法如下表所示: 报错信息 说明 解决方案 Quota exceeded
检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响;
CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导致用户在节点容器内解析域名会偶发失败的状况。 解决方案 建议您通过修改coredns插件的存根域更新用户集群子网DNS配置,修改方法请参见为CoreDNS配置存根域。 父主题: 域名DNS
排水任务检查异常处理 检查项内容 检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage
命名空间中所有资源进行配置,无法对命名空间中不同类别资源(如Pod、Deployment、Service等)的增删改查权限进行配置。 解决方案 Kubernetes提供一套RBAC授权机制,可以非常方便地实现命名空间内容资源的权限控制。 Role:角色,其实是定义一组对Kuber
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
kube-system # 采集规则命名空间,固定为kube-system spec: inputDetail: # 输入配置 type: host_file # 输入类型,host_file表示节点日志文件 hostFile: # 主机文件日志相关
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
无法备份HostPath类型存储卷 HostPath与Local均为本地存储卷,但由于Velero集成的Restic工具无法对HostPath类型的PV进行备份,只支持Local类型,因此需要在原集群中将HostPath类型存储卷替换为Local类型。 Local volume类型的存储建议在Kubernetes
创建配置项 操作场景 配置项(ConfigMap)是一种用于存储工作负载所需配置信息的资源类型,内容由用户决定。配置项创建完成后,可在容器工作负载中作为文件或者环境变量使用。 配置项允许您将配置文件从容器镜像中解耦,从而增强容器工作负载的可移植性。 配置项价值如下: 使用配置项功