检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NPU调度概述 UCS本地集群管理支持NPU异构资源调度能力。 可实现快速高效地处理推理和图像识别等工作。 NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 父主题: NPU调度
含小写英文字母、数字和中划线(-),并以小写英文字母开头,小写英文字母或数字结尾。 集群名称:选择已接入到网格的集群,部署网格负载。 命名空间:选择网格命名空间。如果集群的命名空间未同步创建到网格,请单击“创建命名空间”选择命名空间后,单击确定。 访问入口: 负载均衡:选择负载均衡实例,提供网络访问。
已购买资源包,为什么仍然产生按需计费? 请按表1识别产生按需计费的原因,并重新选择正确的资源包或保证账户中的余额充足。 表1 排查思路 可能原因 处理措施 购买套餐包中集群类型与实际接入的集群类型不一致 购买所接入集群类型对应的套餐包 购买套餐包中集群规模小于实际接入的集群规模 购买集群规模更大的、符合所接入集群规模的套餐包,或保证账户中的余额充足
插件简介 huawei-npu插件是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可支持使用NPU的节点,实现快速高效地处理推理和图像识别等工作。 前置条件 安装huawei-npu的节点需要添加标签“accelerator/huawei-npu”,标签值可为空。
失败,请按以下步骤进行排查: 请至集群列表页面,跳转至集群的工作负载页面,检查gatekeeper-system命名空间下的策略管理实例插件是否运行正常。 如果运行异常,请通过工作负载的事件排查插件实例异常的原因。 如下图: 如果提示其他错误信息,请直接单击“重新启用”。 父主题:
service.” 出现该错误的原因是集群版本不符合要求:接入UCS服务的Kubernetes集群版本必须为1.19及以上。 - 排查项一:proxy-agent的运行状态 集群从UCS注销后,原有proxy-agent配置文件中包含的认证信息将会失效,请同时删除集群中已部署的proxy-ag
service.” 出现该错误的原因是集群版本不符合要求:接入UCS服务的Kubernetes集群版本必须为1.19及以上。 - 排查项一:proxy-agent的运行状态 集群从UCS注销后,原有proxy-agent配置文件中包含的认证信息将会失效,请同时删除集群中已部署的proxy-ag
舰队或集群关联权限异常怎么办? 问题描述 在舰队或未加入舰队的集群关联权限过程中,可能会因为集群接入异常而导致权限关联异常。当这种情况发生时,舰队或集群的“关联权限”页面会显示详细的权限关联异常事件。请先排查并修复集群中出现的异常,然后单击“重试”按钮重新关联权限策略。 排查思路
IAM用户登录UCS无法获取集群或舰队怎么办? 问题描述 IAM用户登录UCS控制台,前往“容器舰队”页面后,无法获取已创建的舰队和已注册的集群(“容器舰队”和“未加入舰队的集群”页面均为空)。 解决方案 大多数IAM用户无法获取集群的问题,都和权限未设置或者设置不正确有关,IA
default域名,将解析结果更新到Node对象的conditions中。主CPD Pod会收集各个Node上的conditions,判断集群域名解析功能是否正常,并将该判断结果上报到至集群联邦控制面。 CPD以DaemonSet的形式部署,需要独立部署在每个目标集群的所有节点上。CPD的配置文件示例如下所示,请参见表1中的描述修改相关参数。
创建MCS对象失败怎么办? 问题描述 创建MCS对象失败,运行kubectl describe mcs mcs-example -n demo命令查看事件,显示如下: 解决方案 问题出现的原因为创建MCS对象时配置的karmada.io/elb.projectid有误,您需要删除
本地集群安装失败怎么办? 现象一:ucs-ctl的二进制使用错误,报错:./ucs-ctl: cannot execute binary file: Exec format error 问题原因:选择的集群架构和安装部署本地集群节点的cpu架构不一致。 例如: 集群架构选择X86
如何修改kube-state-metrics组件的采集配置? 问题描述 kube-prometheus-stack插件的kube-state-metrics组件负责将Prometheus的metrics数据格式转换成K8s API接口能识别的格式。kube-state-metrics
策略中心运行异常怎么办? 策略中心运行异常的可能原因为Gatekeeper插件损坏,或者被删除。根据失败情况请使用以下方案排查修复: 检查gatekeeper-system命名空间中gatekeeper-controller-manager、gatekeeper-audit这两个
下解决方案中的一种: 编辑创建失败的MCI对象,修改为未使用的监听器端口。 登录ELB控制台,删除对应端口的监听器。 若出现情况二中报错,原因为创建MCI对象时配置的karmada.io/elb.projectid有误,您需要删除所创建的MCI,并重新创建配置正确的MCI。 父主题:
集群加入联邦失败怎么办? 问题背景 集群加入联邦失败,报错“the same cluster has been registered with name clusterName”或“cluster(clusterName) is joined successfully”。 可能原因
舰队开通联邦校验失败怎么办? 问题背景 舰队开通集群联邦功能后,UCS服务会把当前舰队已存在的集群及新加入到舰队的集群自动添加到联邦中。添加过程中,舰队会对集群的网络状态、集群版本、clusterrole、clusterrolebinding等项目做校验。如果添加过程中校验存在问
节点扩容规格后未就绪怎么办? 问题描述 本地集群节点扩容规格后,有时会出现节点的Kubernetes启动不了的情况,即节点未就绪。 操作步骤 “/mnt/paas/kubernetes/kubelet/cpu_manager_state”文件储存的是原先的cpu_manager_
集群联邦升级前检查不通过怎么办? 问题背景 升级集群联邦前,UCS会对联邦运行状态、集群运行状态、集群接入状态三方面进行检查,尽可能避免升级失败。如有检查异常项,请先参考本章节内容排查与修复问题。问题修复后,可以尝试再次升级集群联邦。 升级联邦前,请您对联邦运行状态、集群运行状态
扩容节点资源。 K8s事件显示没有符合调度规则的节点。proxy-agent为实现高可用性,默认将两个实例调度至不同的节点,请您确保集群中至少存在两个节点具有足够的资源。 K8s事件显示gatekeeper相关字样,可能是由于创建的策略实例进行了拦截。为解决此问题,请在集群上执行以下命令删除相应策略实例。