检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"<CRD_NAME>" in version "<CRD_FULL_NAME>" ensure CRDs are installed first 解决方案: 这是因为kustomization创建CRD和CR速度较快,可能会出现CRD尚未创建就创建CR的情况。如果您遇到此错误,建议您重新创建资源。
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
控制节点组件健康检查异常处理 检查项内容 检查集群中的Kubernetes组件、容器运行时组件、网络组件等组件,要求在升级前以上组件运行正常。 解决方案 请您优先重试升级前检查; 若重试检查仍失败时,请您提交工单,联系技术支持人员进行处理。 父主题: 升级前检查异常问题排查
8系统时,如果在Docker服务文件中配置了MountFlags=shared字段,会因为systemd特性的原因导致容器挂载点被卸载。 解决方法 修改Docker服务文件,删除MountFlags=shared字段,重启Docker。 登录节点。 执行如下命令,删除配置文件中M
Master节点SSH连通性检查异常处理 检查项内容 该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 解决方案 SSH连通性检查可能有较低概率因为网络波动检查失败,请您优先重试升级前检查; 若重试检查仍无法通过检查,请您提交工单,联系技术支持人员排查。
检查项内容 检查当前集群Service是否通过annotation配置了ELB监听器的访问控制。 若有配置访问控制则检查相关配置项是否正确。 解决方案 如果配置项存在错误,请参考为负载均衡类型的Service配置黑名单/白名单访问策略进行重新配置。 父主题: 升级前检查异常问题排查
Autopilot集群 10:36 CCE Autopilot:全面”自动驾驶”时代的引领者 CCE FinOps解决方案 介绍华为云云原生FinOps解决方案 10:36 华为云云原生FinOps解决方案,释放云原生最大价值 CCE云原生观测中心 介绍CCE云原生观测中心 10:36 新一代云原生可观测平台
检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下(如业务低峰期)进行集群升级,以消减业务容器重启带来的影响;
HTTPS类型负载均衡证书一致性检查异常处理 检查项内容 检查HTTPS类型负载均衡所使用的证书,是否在ELB服务侧被修改。 解决方案 该问题的出现,一般是由于用户在CCE中创建HTTPS类型Ingress后,直接在ELB证书管理功能中修改了Ingress引用的证书,导致CCE集
Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件存储的节点,执行如下命令找到文件存储挂载路径。 findmnt 挂载点路径示例:/mnt/paas/kubernetes
Master节点子网配额检查异常处理 检查项内容 检查本次升级集群子网剩余可用IP数量是否支持滚动升级。 解决方案 该问题一般因为您选择的集群子网的IP数量不够,无法支持滚动升级; 请您迁移对应子网中的节点之后重试检查,若您无法确认迁移影响,请您提交工单联系运维人员支撑。 父主题:
升级后Master节点上的时区会变为集群时区。 如果您集群中存在Cronjob,则可能会导致Cronjob在升级后触发一次非预期的执行。 解决方案 请在升级前关闭Cronjob后再次执行升级前检查,升级完成后开启Cronjob。 父主题: 升级前检查异常问题排查
GPU插件关键参数检查异常处理 检查项内容 检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer
的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时,GPU插件必须使用535.161.08及以上的驱动版本。 解决方案 您在升级后新创或者重置Ubuntu节点时,可能遇到该问题,请编辑GPU插件中的驱动版本至535.161.08及以上,然后重启该节点。
ubernetes能力基础上对计算任务的批量创建及生命周期管理、fair-share、binpack调度等方面做了增强。Volcano充分解决了上文提到的Kubeflow分布式训练面临的问题。 Volcano更多信息请参见:https://github.com/volcano-sh/volcano。
以中划线(-)结尾。 默认取值: 不涉及 uid String 参数解释: 集群ID,资源唯一标识。 约束限制: 创建成功后自动生成,填写无效。在创建包周期集群时,响应体不返回集群ID。 取值范围: 不涉及 默认取值: 不涉及 alias String 参数解释: 集群显示名,用于在
以中划线(-)结尾。 默认取值: 不涉及 uid String 参数解释: 集群ID,资源唯一标识。 约束限制: 创建成功后自动生成,填写无效。在创建包周期集群时,响应体不返回集群ID。 取值范围: 不涉及 默认取值: 不涉及 alias String 参数解释: 集群显示名,用于在
supports console access, not programmatic access." 该错误表示IAM用户没有编程访问权限。 解决方案 请联系主账号管理员,登录统一身份认证服务。 找到需要修改的IAM用户,单击用户名称。 修改“访问方式”,同时勾选“编程访问”和“管理控制台访问”。
节点ID文件检查异常处理 检查项内容 检查节点的ID文件内容是否符合格式。 解决方案 在CCE控制台上的“节点管理”页面,单击异常节点名称进入ECS界面。 复制节点ID,保存到本地。 图1 复制节点ID 登录异常节点,备份文件 。 cp /var/lib/cloud/data/instance-id
残留packageversion检查异常处理 检查项内容 检查当前集群中是否存在残留的packageversion。 解决方案 检查提示您的集群中存在残留的CRD资源10.12.1.109,该问题一般由于CCE早期版本节点删除后,对应的CRD资源未被清除导致。 您可以尝试手动执行以下步骤: