检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为伙伴云集群开启监控 本章节讲述为伙伴云集群开启监控的操作流程。 前提条件 已将伙伴云集群注册到UCS中,具体操作请参见伙伴云集群概述。 准备网络环境 伙伴云集群的数据接入方式支持公网接入和私网接入。 公网接入是通过公网Internet接入,要求集群能够访问公网,具有弹性灵活、成
续费包括手动续费和自动续费两种方式,您可以根据需求选择。了解更多关于续费的信息,请参见续费。 费用账单 您可以在“费用中心 > 账单管理”查看与华为云UCS相关的流水和明细账单,以便了解您的消费情况。如需了解具体操作步骤,请参见费用账单。 欠费 在使用云服务时,账户的可用额度小于
scaling/v2版本进行分发。版本低于v1.23的集群不支持autoscaling/v2版本的HPA对象,因此HPA无法分发到该集群。查看HPA对应的resourceBinding,可以在其conditions中得到如下报错:cluster(s) did not have the
中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存在volcano插件与gpu-device-plugin插件。 若未安装gpu-device-plugin插件,请安
agent.yaml 查看集群代理部署状态。 kubectl -n kube-system get pod | grep proxy-agent 如果部署成功,预期输出如下: proxy-agent-5f7d568f6-6fc4k 1/1 Running 0 9s 查看集群代理运行状态。
secret-example imagePullSecrets: - name: default-secret 环境变量查看 如果configmap-example和secret-example的内容如下。 $ kubectl get configmap configmap-example
更新集群 功能介绍 更新集群。当前仅允许更新附着集群和本地集群的国家/城市,允许更新多云集群的工作节点个数。 URI PUT /v1/clusters/{clusterid} 表1 路径参数 参数 是否必选 参数类型 描述 clusterid 是 String 集群ID 请求参数
插件回滚失败,可重试回滚或卸载后重新安装 删除中 插件正在删除中 部分就绪 插件下只有部分实例状态为运行中,插件部分功能可用 不可用 插件状态异常,插件不可使用。可单击插件名称查看实例异常事件 安装失败 插件安装失败,需要卸载后重新安装 升级失败 插件升级失败,可重试升级或卸载后重新安装 删除失败 插件删除失败,可重试卸载
如需新建舰队,请参见管理容器舰队。 单击“确定”,集群注册成功后如图1所示,请在24小时内接入网络。您可选择集群的接入方式或单击右上角按钮查看详细的网络接入流程。 如您未在24小时内接入网络,将会导致集群注册失败,可单击右上角按钮重新注册集群。如果已经接入但数据未采集上来,请等待2分钟后刷新集群。
配置工作负载信息。在“容器配置>基本信息”中,异构资源选择“NPU”,并设置NPU配额。 配置其余信息,完成后,单击“创建工作负载”。返回无状态工作负载列表查看工作负载状态。 在工作负载列表中,待工作负载状态为“运行中”,工作负载创建成功。 通过kubectl命令行创建NPU应用 本节以创建无状态
非华为云集群使用UCS挂载存储卷声明时,需要集群提供商具备存储类(StorageClass)功能,以实现存储卷的动态创建。请通过下列命令查询对应集群的StorageClass配置及对接的后端存储资源。更多StorageClass相关内容,请参见存储类。 kubectl get storageclass
对象存储(OBS):对象存储没有总数据容量和对象/文件数量的限制,为用户提供了超大存储容量的能力,适合存放任意类型的文件,可用于海量数据存储分析、历史数据明细查询、海量行为日志分析和公共事务分析统计等场景。 非华为云集群:非华为云集群在使用存储卷声明挂载云存储时,需要集群提供商支持存储类功能,详情请参见存储类。
表示此任务必须在每个星期五的午夜以及每个月的 13 日的午夜开始。 时区 可选择上海时区或新加坡时区。 设置完成后,单击“确定”,然后单击“创建”,即可跳转定时伸缩策略列表查看策略详情,完成CronFederatedHPA策略创建。 命令行创建 使用kubectl连接集群联邦,详细操作请参见使用kubectl连接集群联邦。
有安全风险的工作负载配置示例 工作负载的容器镜像中默认WORKDIR或启动命令包含 /proc/self/fd/<num>。 可通过以下命令查看容器镜像元数据: docker运行时执行:docker inspect <镜像ID> containerd运行时执行:crictl inspecti
申请值推荐计算公式: CPU申请值:计算“目标节点数 * 目标Pod规模”的值,并在表1中根据“集群节点数 * Pod规模”的计算值进行插值查找,向上取最接近规格的申请值及限制值。 例如2000节点和2w个Pod的场景下,“目标节点数 * 目标Pod规模”等于4000w,向上取最接近的规格为700/7w(“集群节点数
apply -f gpu-app.yaml 验证GPU虚拟化隔离能力 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量 kubectl exec -it gpu-app -- nvidia-smi 预期输出: Wed Apr 12 07:54:59
文件。 该方法不适用于云服务商提供的商用集群,商用集群的KubeConfig文件获取请参考第三方云厂商集群。 登录集群Master节点。 查看集群访问凭证。默认情况下,自建集群的配置文件路径为Master节点的“$HOME/.kube/config”,如您的集群指定了其他KubeConfig配置文件,请自行更换路径。
选择一个容器舰队或者未加入舰队的集群。 图1 选择舰队或未加入舰队的集群 单击“容器洞察 > 集群总览”页签查看已开启监控的集群,选择待升级插件的集群,单击操作列的“查看详情”,进入概览页。 页面右上角会展示kube-prometheus-stack插件的版本,当安装的插件版本非
upgrade cluster [cluster name] 集群名称需要和创建本地集群时指定的名称一致,如果不确定名称可进集群内,使用命令查看: ./ucs-ctl get cluster node节点升级,node节点升级可以选择两种升级方式: 全量升级,全量升级指的是将集群内剩余节点全部升级,命令如下:
当集群不满足约束条件时,界面会弹出报错信息,请按照提示修改,然后重新开通集群联邦。 开通集群联邦大约需要10分钟,请耐心等待。您可以单击集群联邦状态,查看详细的开通进度。开通成功后,容器舰队顶部的提示信息变为“集群联邦能力已开通 ,集群接入成功”。 添加集群 容器舰队开通集群联邦后,可以继续