检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行kubectl命令报错Error from server (Forbidden)怎么办? 问题描述 在使用集群联邦的过程中,执行kubectl命令,出现如下所示的报错信息。 可能原因 可能是由于集群联邦内成员集群的资源对象ClusterRole或者ClusterRoleBin
NPU调度概述 UCS本地集群管理支持NPU异构资源调度能力。 可实现快速高效地处理推理和图像识别等工作。 NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 父主题: NPU调度
已购买资源包,为什么仍然产生按需计费? 请按表1识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 表1 排查思路 可能原因 处理措施 购买套餐包中集群类型与实际接入的集群类型不一致 购买所接入集群类型对应的套餐包 购买套餐包中集群规模小于实际接入的集群规模
huawei-npu插件是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可支持使用NPU的节点,实现快速高效地处理推理和图像识别等工作。 前置条件 安装huawei-npu的节点需要添加标签“accelerator/huawei-npu”,标签值可为空。 使用npu插件在Ascend
本地集群安装失败怎么办? 现象一:ucs-ctl的二进制使用错误,报错:./ucs-ctl: cannot execute binary file: Exec format error 问题原因:选择的集群架构和安装部署本地集群节点的cpu架构不一致。 例如: 集群架构选择X86
本地集群接入失败怎么办? 问题描述 本文为集群接入的异常排查思路以及解决方案。集群接入UCS可能出现的异常情况如下: 在UCS控制台中注册集群后,已在集群中部署proxy-agent,但界面一直提示“等待接入”,或在接入超时后提示“注册失败”。 如集群已处于“注册失败”状态,请单
启用策略中心失败怎么办? 策略中心启用失败时,根据失败情况请使用以下方案排查修复: 如果提示“wait for plugins status become health time out”,请检查集群状态是否正常,集群资源是否足够。检查无误后单击“重新启用”。 如果在启用策略中心
附着集群接入失败怎么办? 问题描述 本文为集群接入的异常排查思路以及解决方案。集群接入UCS可能出现的异常情况如下: 在UCS控制台中注册集群后,已在集群中部署proxy-agent,但界面一直提示“等待接入”,或在接入超时后提示“注册失败”。 如集群已处于“注册失败”状态,请单
舰队开通联邦校验失败怎么办? 问题背景 舰队开通集群联邦功能后,UCS服务会把当前舰队已存在的集群及新加入到舰队的集群自动添加到联邦中。添加过程中,舰队会对集群的网络状态、集群版本、clusterrole、clusterrolebinding等项目做校验。如果添加过程中校验存在问
集群因插件资源残留开启监控失败怎么办? 问题现象 集群开启监控时,接口返回报错,报错信息中含有“release name already exists”字段。 集群开启监控请求下发成功,但是监控状态为“安装失败”或“未知”,在开启监控页面查看kube-prometheus-sta
配置条件触发自动切流 本小节指导您配置条件触发自动切流,以识别集群CoreDNS功能故障并自动摘除流量。 为集群安装CPD组件识别集群 在配置自动切流前,您需要在集群中安装CPD(cluster-problem-detector)组件,以自动探测集群CoreDNS域名解析功能是否正常,并进行上报。
联邦管理面创建HPA后分发到成员集群失败怎么办? 问题背景 在集群联邦管理面创建HPA后,创建PropagationPolicy将其分发到版本低于v1.23的成员集群失败。 可能原因 当前,UCS集群联邦API Server版本为v1.25,因此HPA对象有autoscaling
舰队或集群关联权限异常怎么办? 问题描述 在舰队或未加入舰队的集群关联权限过程中,可能会因为集群接入异常而导致权限关联异常。当这种情况发生时,舰队或集群的“关联权限”页面会显示详细的权限关联异常事件。请先排查并修复集群中出现的异常,然后单击“重试”按钮重新关联权限策略。 排查思路
IAM用户登录UCS无法获取集群或舰队怎么办? 问题描述 IAM用户登录UCS控制台,前往“容器舰队”页面后,无法获取已创建的舰队和已注册的集群(“容器舰队”和“未加入舰队的集群”页面均为空)。 解决方案 大多数IAM用户无法获取集群的问题,都和权限未设置或者设置不正确有关,IA
kube-prometheus-stack插件的kube-state-metrics组件负责将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。kube-state-metrics组件在默认配置下,不采集K8s资源的所有labels和annotation。如需采集则需要在启
创建MCI对象失败怎么办? 问题描述 创建MCI对象失败。 排查思路 请运行kubectl describe mci mci-example -n demo命令,查看事件。 情况一,事件显示如下: 情况二,事件显示如下: 解决方案 若出现情况一中报错,原因为创建MCI对象时配置的
集群加入联邦失败怎么办? 问题背景 集群加入联邦失败,报错“the same cluster has been registered with name clusterName”或“cluster(clusterName) is joined successfully”。 可能原因
创建MCS对象失败怎么办? 问题描述 创建MCS对象失败,运行kubectl describe mcs mcs-example -n demo命令查看事件,显示如下: 解决方案 问题出现的原因为创建MCS对象时配置的karmada.io/elb.projectid有误,您需要删除
策略中心运行异常怎么办? 策略中心运行异常的可能原因为Gatekeeper插件损坏,或者被删除。根据失败情况请使用以下方案排查修复: 检查gatekeeper-system命名空间中gatekeeper-controller-manager、gatekeeper-audit这两个
节点扩容规格后未就绪怎么办? 问题描述 本地集群节点扩容规格后,有时会出现节点的Kubernetes启动不了的情况,即节点未就绪。 操作步骤 “/mnt/paas/kubernetes/kubelet/cpu_manager_state”文件储存的是原先的cpu_manager_