检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
继续执行集群升级任务(已废弃) 功能介绍 继续执行被暂停的集群升级任务。 集群升级涉及多维度的组件升级操作,强烈建议统一通过CCE控制台执行交互式升级,降低集群升级过程的业务意外受损风险; 当前集群升级相关接口受限开放。 调用方法 请参见如何调用API。 URI POST /ap
请确保节点处于“运行中”状态。节点处于“安装中”、“删除中”状态时,均不支持升级。 若节点状态异常,请参考 集群可用,但节点状态为“不可用”修复节点后,重试检查任务。 图1 查看节点状态 检查到节点操作系统不支持升级 当前集群升级支持的节点操作系统范围如下表所示,若您的节点OS
更新指定集群升级引导任务状态 功能介绍 该API用于更新指定集群升级引导任务状态,当前仅适用于取消升级流程 调用该API时升级流程引导任务状态不能为进行中(running) 已完成(success) 已取消(cancel),升级子任务状态不能为running(进行中) init(已初始化)
使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system
etworkPolicy开关进行过手动修改,那么升级过程中该配置会被刷新成默认值。 解决方案 根据诊断分析中的日志排查网络组件canal-controller的NetworkPolicy开关是否确实需要关闭。例如,集群通过云专线访问云外地址时,云外交换机不支持ip-option,
er/containerd标准输出。 如果您集群中使用了nginx,可能会出现转发变慢等问题。 解决方案 请登录节点手动删除用不到的镜像,防止后续升级异常。 父主题: 升级前检查异常问题排查
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
集群升级 CCE集群升级时,升级集群插件失败如何排查解决? 父主题: 集群
集群升级 集群升级 获取集群升级任务详情 重试集群升级任务 暂停集群升级任务(已废弃) 继续执行集群升级任务(已废弃) 获取集群升级任务详情列表 集群升级前检查 获取集群升级前检查任务详情 获取集群升级前检查任务详情列表 集群升级后确认 集群备份 获取集群备份任务详情列表 获取集群升级相关信息
检查项内容 检查到您集群中Master节点实际时区与集群时区不一致,滚动升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
动过慢,影响docker标准输出,影响nginx等功能的正常使用。 解决方案 请手动删除残留的镜像,防止后续升级异常; 删除镜像之后请您重新进行升级前检查 父主题: 升级前检查异常问题排查
object 升级任务元数据信息 spec UpgradeTaskSpec object 升级任务信息 status UpgradeTaskStatus object 升级任务状态 表4 UpgradeTaskMetadata 参数 参数类型 描述 uid String 升级任务ID creationTimestamp
PrecheckTaskMetadata object 升级前检查任务元数据信息 spec PrecheckCluserResponseSpec object 升级前检查任务信息 status PrecheckStatus object 升级前检查任务状态 表5 PrecheckTaskMetadata
暂不可访问风险,继续升级。 请选择跳过该检查项异常后重新检查,在集群升级完成后删除存量Pod,触发Pod重建,访问将恢复。 问题场景三:部分老版本的CCE插件存在该异常 请将老版本的CCE插件升级至最新版本。例如1.2.2以下的CCE容器网络扩展指标插件存在该问题,需升级至1.2
升级后验证 集群状态检查 节点状态检查 跳过节点检查 业务检查 新建节点检查 新建Pod检查 父主题: 升级集群
的容器实例共享弹性公网IP访问Internet。其原理如图1所示。通过NAT网关的SNAT功能,即使VPC内的容器实例不配置弹性公网IP也可以直接访问Internet,提供超大并发数的连接服务,适用于请求量大、连接数多的服务。 图1 SNAT 您可以通过如下步骤实现容器实例访问Internet。
当前检查项包括以下内容: 检查当前节点DNS配置是否能正常解析OBS地址 检查当前节点是否能访问存储升级组件包的OBS地址 解决方案 节点升级过程中,需要从OBS拉取升级组件包。此项检查失败,请联系技术人员支持。 父主题: 升级前检查异常问题排查
节点池检查异常处理 检查项内容 检查节点池状态是否正常。 检查升级后节点池操作系统或容器运行时是否支持。 解决方案 问题场景:节点池状态异常 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理”页面查看问题节点池状态。若该节点池状态处于伸缩中,请等待节点池伸缩完毕。 图1 查看节点池状态