集群因插件资源残留开启监控失败怎么办? 问题现象 集群开启监控时,接口返回报错,报错信息中含有“release name already exists”字段。 集群开启监控请求下发成功,但是监控状态为“安装失败”或“未知”,在开启监控页面查看kube-prometheus-sta
在左侧导航栏中选择“自定义资源”,在右上角单击“YAML创建”。 在线编辑或选择导入自定义资源的YAML文件,单击“确定”。 其他操作: 单击操作列“查看YAML”,可查看自定义资源的YAML内容。 单击操作列“查看资源”,可查看集群中已有的自定义资源实例。 父主题: 单集群管理
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
创建MCI对象失败怎么办? 问题描述 创建MCI对象失败。 排查思路 请运行kubectl describe mci mci-example -n demo命令,查看事件。 情况一,事件显示如下: 情况二,事件显示如下: 解决方案 若出现情况一中报错,原因为创建MCI对象时配置的
更改驱动版本后,需要重启节点才能生效。 重启节点前需要排空节点中的Pod,在进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“
如何清理多云集群资源? 在多云集群注销过程中,若因某些原因导致注销失败,您可以尝试重新进行注销操作。但在此之前,请确保已经在AWS控制台手动删除了集群关联的资源。本章节将为您提供这些资源的名称和数量,您可以分别访问AWS的EC2面板和VPC面板,查看并删除相应资源。 表1中,${
1/1 Running 0 29d Pod属于命名空间级资源。此外,大多数工作负载资源、Service资源、配置与存储资源都属于命名空间级。 工作负载资源 Pod:Kubernetes部署应用或服务的最小的基本单位。 ReplicaSet:Kub
UCS服务资源权限(IAM授权) UCS服务资源权限是基于IAM系统策略的授权,UCS服务资源包括容器舰队、集群、联邦实例等等,管理员可以针对用户的角色(如开发、运维)进行差异化授权,精细控制他们对UCS资源的使用范围。 IAM通过用户组功能实现用户的授权,在给用户组授权之前,请
如何清理策略中心相关资源? 对于已启用策略中心功能的集群,在以下场景中,可能会存在资源残留情况: 集群连接中断时,停用策略中心 集群停用策略中心过程中,连接中断 集群连接中断后,注销集群 集群连接中断后,移出舰队 因此需要执行如下命令,清理残留资源: kubectl delete
舰队或集群关联权限异常怎么办? 问题描述 在舰队或未加入舰队的集群关联权限过程中,可能会因为集群接入异常而导致权限关联异常。当这种情况发生时,舰队或集群的“关联权限”页面会显示详细的权限关联异常事件。请先排查并修复集群中出现的异常,然后单击“重试”按钮重新关联权限策略。 排查思路
联邦中,或者曾经加入过联邦但是存在资源残留。 解决方案:手工清理残留资源。 操作步骤: 获取报错集群的kubeconfig配置文件,并准备kubectl及运行节点,将kubeconfig文件放在运行节点/tmp目录。 执行如下命令,清理残留资源。 alias kubectl='kubectl
创建MCS对象失败怎么办? 问题描述 创建MCS对象失败,运行kubectl describe mcs mcs-example -n demo命令查看事件,显示如下: 解决方案 问题出现的原因为创建MCS对象时配置的karmada.io/elb.projectid有误,您需要删除
取SWR镜像。 K8s事件显示节点的CPU或内存资源不足,请您扩容节点资源。 K8s事件显示没有符合调度规则的节点。proxy-agent为实现高可用性,默认将两个实例调度至不同的节点,请您确保集群中至少存在两个节点具有足够的资源。 K8s事件显示gatekeeper相关字样,可
启用策略中心失败怎么办? 策略中心启用失败时,根据失败情况请使用以下方案排查修复: 如果提示“wait for plugins status become health time out”,请检查集群状态是否正常,集群资源是否足够。检查无误后单击“重新启用”。 如果在启用策略中心
本地集群安装失败怎么办? 现象一:ucs-ctl的二进制使用错误,报错:./ucs-ctl: cannot execute binary file: Exec format error 问题原因:选择的集群架构和安装部署本地集群节点的cpu架构不一致。 例如: 集群架构选择X86
本地集群接入失败怎么办? 问题描述 本文为集群接入的异常排查思路以及解决方案。集群接入UCS可能出现的异常情况如下: 在UCS控制台中注册集群后,已在集群中部署proxy-agent,但界面一直提示“等待接入”,或在接入超时后提示“注册失败”。 如集群已处于“注册失败”状态,请单
集群加入联邦失败怎么办? 问题背景 集群加入联邦失败,报错“the same cluster has been registered with name clusterName”或“cluster(clusterName) is joined successfully”。 可能原因
策略中心运行异常怎么办? 策略中心运行异常的可能原因为Gatekeeper插件损坏,或者被删除。根据失败情况请使用以下方案排查修复: 检查gatekeeper-system命名空间中gatekeeper-controller-manager、gatekeeper-audit这两个
delete。 资源对象:您可以选择“全部资源”或“指定资源”。全部资源对象包括当前已有的资源对象和后续新增的自定义资源对象;“指定资源”即表示您自己选择资源对象的范围,为了便于查找,UCS服务将资源对象按照工作负载、服务、配置和存储、身份验证、授权、权限、扩展、集群维度划分。 若系
附着集群接入失败怎么办? 问题描述 本文为集群接入的异常排查思路以及解决方案。集群接入UCS可能出现的异常情况如下: 在UCS控制台中注册集群后,已在集群中部署proxy-agent,但界面一直提示“等待接入”,或在接入超时后提示“注册失败”。 如集群已处于“注册失败”状态,请单
您即将访问非华为云网站,请注意账号财产安全