检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群升级 CCE集群升级时,升级集群插件失败如何排查解决? 父主题: 集群
PrecheckTaskMetadata object 升级前检查任务元数据信息 spec PrecheckCluserResponseSpec object 升级前检查任务信息 status PrecheckStatus object 升级前检查任务状态 表5 PrecheckTaskMetadata
继续执行集群升级任务(已废弃) 功能介绍 继续执行被暂停的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /ap
问题场景三:插件配置不满足升级条件,请在插件升级页面升级插件之后重试 升级前检查出现以下报错: please upgrade addon [ ] in the page of addon managecheck and try again 请您登录CCE控制台,在“插件中心”处手动升级插件。 父主题:
内部错误异常处理 检查项内容 该检查非常规检查项,表示升级前检查流程中出现了内部错误。 解决方案 该问题出现后,请您优先重试升级前检查; 若重试升级前检查仍失败,请您提交工单,联系技术支持人员。 父主题: 升级前检查异常问题排查
某客户在DNS服务中做内网解析,将自有的域名绑定到DNS服务中的内网域名中,并绑定到特定的VPC中,发现本VPC内的节点(ECS)可以正常解析内网域名的记录,而VPC内的容器则无法解析。 适用场景 VPC内的容器无法进行正常DNS解析的情况。 解决方案 由于本案例涉及的是内网域名解析,按照内网域名解析的规则,
解决方案 使用CoreDNS有以下几种自定义域名解析的方案。 为CoreDNS配置存根域:为特定域名指定域名解析服务器,可以直接在控制台添加,简单易操作。 使用 CoreDNS Hosts 插件配置任意域名解析:为特定域名配置本地解析记录,简单直观,可以添加任意解析记录,类似
object 升级任务元数据信息 spec UpgradeTaskSpec object 升级任务信息 status UpgradeTaskStatus object 升级任务状态 表4 UpgradeTaskMetadata 参数 参数类型 描述 uid String 升级任务ID creationTimestamp
使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
群时区不一致,滚动升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。 父主题: 升级前检查异常问题排查
集群升级 集群升级 获取集群升级任务详情 重试集群升级任务 暂停集群升级任务(已废弃) 继续执行集群升级任务(已废弃) 获取集群升级任务详情列表 集群升级前检查 获取集群升级前检查任务详情 获取集群升级前检查任务详情列表 集群升级后确认 集群备份 获取集群备份任务详情列表 获取集群升级相关信息
升级后验证 集群状态检查 节点状态检查 跳过节点检查 业务检查 新建节点检查 新建Pod检查 父主题: 升级集群
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
若不需要使用ASM网格,可删除ASM网格后再进行升级,升级后集群不能绑定与表中不匹配的ASM网格版本。例如,使用v1.21版本集群与1.8版本ASM网格,若要升级至v1.25版本集群时,请先升级ASM网格至1.15版本后再进行v1.25版本集群升级。 若您没有安装ASM网格服务,请检查集
检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 解决方案 您可在明确差异配置后,单独升级CoreDNS插件。 配置Kubectl命令,具体请参见通过kubectl连接集群。 获取当前生效的Corefile。
轮转证书文件数量检查 检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 登录节点,并进入节点证书目录。
问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不存在,请您从其他节点复制sudo命令到该节点。 问题场景二:关键文件不可修改 集群原地升级过程中会修改/etc/sudoers文件和/etc/sudoers
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查