检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群因插件资源残留开启监控失败怎么办? 问题现象 集群开启监控时,接口返回报错,报错信息中含有“release name already exists”字段。 集群开启监控请求下发成功,但是监控状态为“安装失败”或“未知”,在开启监控页面查看kube-prometheus-sta
附着集群接入失败怎么办? 问题描述 本文为集群接入的异常排查思路以及解决方案。集群接入UCS可能出现的异常情况如下: 在UCS控制台中注册集群后,已在集群中部署proxy-agent,但界面一直提示“等待接入”,或在接入超时后提示“注册失败”。 如集群已处于“注册失败”状态,请单
行正常通信,由于不同用户待接入集群的网络环境配置不同,这里无法提供统一的解决方案,需要您自行解决集群网络问题后进行重试。 登录UCS控制台,在左侧导航栏选择“容器舰队”页面。 登录目标集群Master节点,检查proxy-agent的Pod是否可以访问待接入集群的apiserver。
$1}'` 现象二:提示CCE集群需要绑定EIP 问题原因:舰队启用联邦后,访问CCE集群,当前需要通过EIP解决网络连接问题。 解决方案:给CCE集群绑定EIP。详细操作请参考配置集群API Server公网访问。 现象三:CCE集群已绑定EIP,集群加入联邦仍失败,报错:network
出现该错误的原因大概率为集群还未接入,接入集群中的proxy-agent运行状态异常,或者网络异常。 排查项一:proxy-agent的运行状态 排查项二:集群与UCS网络连接状态 Unauthorized 出现该错误的原因可能是多样的,请根据实际状态码进行排查。 例如状态码401表示用户没有访问权限,可能的原因是集群认证信息过期。
虚拟机SSH连接超时怎么办? 由于部分虚拟机性能不满足使用需求,偶尔会出现SSH连接超时现象,此时可以通过修改虚拟机SSH配置来解决问题。 执行以下命令: vim /etc/ssh/sshd_config 按“i”进入编辑模式。 将useDNS的值设置为no。 按“ESC”,并输入:wq
确保集群具备访问公网的能力,可正常拉取SWR镜像。 K8s事件显示节点的CPU或内存资源不足,请您扩容节点资源。 K8s事件显示没有符合调度规则的节点。proxy-agent为实现高可用性,默认将两个实例调度至不同的节点,请您确保集群中至少存在两个节点具有足够的资源。 K8s事件
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
IAM用户登录UCS无法获取集群或舰队怎么办? 问题描述 IAM用户登录UCS控制台,前往“容器舰队”页面后,无法获取已创建的舰队和已注册的集群(“容器舰队”和“未加入舰队的集群”页面均为空)。 解决方案 大多数IAM用户无法获取集群的问题,都和权限未设置或者设置不正确有关,IA
更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存
自定义资源 自定义资源(Custom Resource Definitions, CRD)允许用户创建一个与Deployment、Service类似的定制资源对象,用户可以通过kubectl命令来创建和访问这种自定义资源,为用户提供模块化的Kubernetes扩展,详情请参考使用
创建MCS对象失败怎么办? 问题描述 创建MCS对象失败,运行kubectl describe mcs mcs-example -n demo命令查看事件,显示如下: 解决方案 问题出现的原因为创建MCS对象时配置的karmada.io/elb.projectid有误,您需要删除
创建MCI对象失败怎么办? 问题描述 创建MCI对象失败。 排查思路 请运行kubectl describe mci mci-example -n demo命令,查看事件。 情况一,事件显示如下: 情况二,事件显示如下: 解决方案 若出现情况一中报错,原因为创建MCI对象时配置的
本地集群安装失败怎么办? 现象一:ucs-ctl的二进制使用错误,报错:./ucs-ctl: cannot execute binary file: Exec format error 问题原因:选择的集群架构和安装部署本地集群节点的cpu架构不一致。 例如: 集群架构选择X86
1/1 Running 0 29d Pod属于命名空间级资源。此外,大多数工作负载资源、Service资源、配置与存储资源都属于命名空间级。 工作负载资源 Pod:Kubernetes部署应用或服务的最小的基本单位。 ReplicaSet:Kub
集群联邦升级前检查不通过怎么办? 问题背景 升级集群联邦前,UCS会对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,尽可能避免升级失败。如有检查异常项,请先参考本章节内容排查与修复问题。问题修复后,可以尝试再次升级集群联邦。 升级联邦前,请您对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,以避免升级失败。
如果在启用策略中心后,集群列表页面或者策略实例页面显示启用失败,请按以下步骤进行排查: 请至集群列表页面,跳转至集群的工作负载页面,检查gatekeeper-system命名空间下的策略管理实例插件是否运行正常。 如果运行异常,请通过工作负载的事件排查插件实例异常的原因。 如下图: 如果提示其他错误信息,请直接单击“重新启用”。
集群加入联邦失败怎么办? 问题背景 集群加入联邦失败,报错“the same cluster has been registered with name clusterName”或“cluster(clusterName) is joined successfully”。 可能原因
执行kubectl命令报错Error from server (Forbidden)怎么办? 问题描述 在使用集群联邦的过程中,执行kubectl命令,出现如下所示的报错信息。 可能原因 可能是由于集群联邦内成员集群的资源对象ClusterRole或者ClusterRoleBinding被删除
部署Nginx Ingress后状态为未就绪怎么办? 问题背景 创建Nginx Ingress后,Ingress处于“未就绪”状态。 解决方案 在创建Nginx Ingress前应为对应集群安装Nginx Ingress Controller插件,若未安装会导致Ingress处于