检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Master节点SSH连通性检查异常处理 检查项内容 该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。
检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。 父主题: 升级前检查异常问题排查
节点池异常状态排查 排查思路 请根据具体节点池异常状态确定具体问题原因,如表1所示。 表1 节点池异常 节点池异常状态 说明 解决方案 错误 Error 节点池删除失败 重试删除节点池操作,如果节点池仍旧无法删除,请提交工单帮助删除错误节点池。 配额不足 QuotaInsufficient
GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml 请检查UpdateStrategy字段
容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创或者重置Ubuntu节点时,可能遇到该问题,请编辑GPU插件中的驱动版本至535.161.08及以上,然后重启该节点。 父主题:
检查集群管理平面网段是否与主干配置一致 检查项内容 检查集群管理平面网段是否与主干配置一致。 解决方案 该问题由于您的局点做过管理面网段配置修改,导致主干配置中的管理平面网段不一致; 请您提交工单,联系技术支持人员修改配置之后重启检查。 父主题: 升级前检查异常问题排查
ntainerd启动过慢,影响docker/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
查看节点操作系统及openssh版本: 如果集群node节点OS是EulerOS、Huawei Cloud EulerOS 1.1和CentOS,openssh版本不受该漏洞影响。 如果集群node节点OS是Huawei Cloud EulerOS 2.0,可以用如下命令查看安装包版本: rpm -qa
节点CPU数量检查异常处理 检查项内容 检查您的集群Master节点的CPU核心数量,要求Master节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
集群内节点已绑定弹性公网IP,且已配置kubectl命令行工具,具体请参见将弹性公网IP绑定至实例和通过kubectl连接集群。 步骤一:部署Flink集群 在Kubernetes上部署Flink集群通常需要三个关键组件,每个组件对应Flink官网提供的不同资源定义文件,具体说明请参
runc的符号链接以及条件竞争漏洞,最终可能会导致容器逃逸,使攻击者能够访问宿主机的文件系统。 您需要检查节点上的runc版本是否<=1.0.0-rc94,以判断是否受该漏洞影响。 漏洞处理方案 限制不受信任的用户拥有创建工作负载权限,尤其是拥有配置卷挂载参数的权限。 限制容器所拥有的权限。
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤:
后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。 父主题: 升级前检查异常问题排查
并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等 解决方案 若集群升级后您的在线业务有异常,请联系技术支持人员。 父主题: 升级后验证
SFS 弹性文件服务提供托管的共享文件存储,符合标准文件协议(NFS),能够弹性伸缩至PB规模,具备可扩展的性能,为海量数据、高带宽型应用提供有力支持。 您可以使用弹性文件服务作为容器的持久化存储,在创建任务负载的时候挂载到容器上。 使用文件存储卷 应用运维管理 AOM 云容器引擎对接
中设置的规格不一致。 问题影响 节点变更规格后,由于CPU、内存、网卡配额(可用IP地址)等节点参数发生变化,可能会导致该节点所在的节点池弹性伸缩行为与预期不符。 例如,节点进行规格变更后,增加CPU和内存(从2U4G变更4U8G)。 节点池扩容时,将根据节点池的节点模板信息计算
可以提升标签创建和迁移效率。 全域弹性公网(仅独享型ELB支持):选择绑定全域弹性公网IP实例,实现公网带宽资源在实例间分配与使用,控制全域弹性公网IP与公网间通信的速率。关于全域弹性公网更多信息,请参见全域公网带宽概述。 监听器配置:Ingress为负载均衡器配置监听器,监听器
节点池弹性伸缩优先级说明 前提条件 如需使用节点规格优先级功能,CCE集群弹性引擎插件版本要求为1.19.35、1.21.28、1.23.30、1.25.20及以上。其中AZ均衡分布策略在1.23.122、1.25.117、1.27.85、1.28.52及以上支持。 弹性扩容策略
问题描述 在节点负载压力比较大的场景下,可能存在NPD进程资源残留的问题。 问题现象 登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中选择“插件中心”,单击CCE节点故障检测下的“升级”。
CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导致用户在节点容器内解析域名会偶发失败的状况。 解决方案 建议您通过修改coredns插件的存根域更新用户集群子网DNS配置,修改方法请参见为CoreDNS配置存根域。 父主题: 域名DNS