检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Deployment可以采用滚动升级的升级方式,为对各个实例逐个进行更新,而不是同时对所有实例进行全部更新,可以控制Pod的更新速度和并发数,从而确保了升级过程中业务不中断。例如,可以设置maxSurge和maxUnavailable参数,控制同时创建的新Pod数量和同时删除的旧Pod数量。确保升级过程中始终有工作负载能够提供服务。
排水任务检查异常处理 检查项内容 检查到集群中存在未完成的排水任务,此时升级可能会导致升级完成后触发排水动作,将运行中的Pod进行驱逐。 解决方案 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看是否存在排水任务,以下为正常回显: kubectl get drainage
PrecheckTaskMetadata object 升级前检查任务元数据信息 spec PrecheckCluserResponseSpec object 升级前检查任务信息 status PrecheckStatus object 升级前检查任务状态 表5 PrecheckTaskMetadata
问题场景三:插件配置不满足升级条件,请在插件升级页面升级插件之后重试 升级前检查出现以下报错: please upgrade addon [ ] in the page of addon managecheck and try again 请您登录CCE控制台,在“插件中心”处手动升级插件。 父主题:
集群升级 CCE集群升级时,升级集群插件失败如何排查解决? 父主题: 集群
集群升级 集群升级 获取集群升级任务详情 重试集群升级任务 暂停集群升级任务(已废弃) 继续执行集群升级任务(已废弃) 获取集群升级任务详情列表 集群升级前检查 获取集群升级前检查任务详情 获取集群升级前检查任务详情列表 集群升级后确认 集群备份 获取集群备份任务详情列表 获取集群升级相关信息
使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
轮转证书文件数量检查 检查项内容 检查您节点上的证书数量过多(>1000),由于升级过程中会批量处理证书文件,证书文件过多可能导致节点升级过慢,节点上Pod被驱逐等。 解决方案 方案一:优先建议您重置节点,详情请参考重置节点。 方案二:修复节点上证书轮转异常问题。 进入节点/op
业务检查 检查项内容 集群升级完毕,由用户验证当前集群正在运行的业务是否正常。 检查步骤 业务不同,验证的方式也有所不同,建议您在升级前确认适合您业务的验证方式,并在升级前后均执行一遍。 常见的业务确认方式有: 业务界面可用 监控平台无异常告警与事件 关键应用进程无错误日志 API拨测正常等
问题场景一:sudo命令执行失败 集群原地升级过程中依赖sudo命令正常可用,请登录节点执行如下命令,排查sudo命令可用性。 sudo echo hello 如果sudo命令不存在,请您从其他节点复制sudo命令到该节点。 问题场景二:关键文件不可修改 集群原地升级过程中会修改/etc/sudoers文件和/etc/sudoers
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
升级后验证 集群状态检查 节点状态检查 跳过节点检查 业务检查 新建节点检查 新建Pod检查 父主题: 升级集群
及时升级集群中的CoreDNS版本 CoreDNS功能较为单一,对不同的Kubernetes版本也实现了较好的兼容性,CCE会定期同步社区bug,升级CoreDNS插件的版本,建议客户定期升级集群的CoreDNS版本。CCE的插件管理中心提供了CoreDNS的安装及升级功能。您可
新建Pod检查 检查内容 检查集群升级后,存量节点是否能新建Pod。 检查集群升级后,新建节点是否能新建Pod。 检查步骤 基于新建节点检查创建了新节点后,通过创建DaemonSet类型工作负载,在每个节点上创建Pod。 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“
若不需要使用ASM网格,可删除ASM网格后再进行升级,升级后集群不能绑定与表中不匹配的ASM网格版本。例如,使用v1.21版本集群与1.8版本ASM网格,若要升级至v1.25版本集群时,请先升级ASM网格至1.15版本后再进行v1.25版本集群升级。 父主题: 升级前检查异常问题排查
检查当前CoreDNS关键配置Corefile是否同Helm Release记录存在差异,差异的部分可能在插件升级时被覆盖,影响集群内部域名解析。 解决方案 您可在明确差异配置后,单独升级CoreDNS插件。 配置Kubectl命令,具体请参见通过kubectl连接集群。 获取当前生效的Corefile。
erd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
er节点的核心数量大于2核。 解决方案 当前您的Master节点cpu数量为2,可能会导致集群升级失败; 请联系技术支持人员,将该集群Master节点扩容至4核及以上。 父主题: 升级前检查异常问题排查
自建IDC与CCE集群共享域名解析 自建IDC与CCE集群共享域名解析方案概述 通过DNS Endpoint做级联解析 修改CoreDNS配置直接解析 父主题: 网络