检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看“创建终端节点”中的服务名称,单击,记录服务名称。 图1 创建终端节点 登录VPC终端节点控制台,单击“购买终端节点”,创建连接不同服务的终端节点。 选择终端节点的区域,单击“按名称查找服务”,输入2中所记录的服务名称,并单击“验证”,创建UCS的终端节点。
kubectl apply -f agent.yaml 查看集群代理部署状态。
则进入Pod中查看的环境变量结果如下。
费用账单 您可以在“费用中心 > 账单管理”查看与华为云UCS相关的流水和明细账单,以便了解您的消费情况。如需了解具体操作步骤,请参见费用账单。 欠费 在使用云服务时,账户的可用额度小于待结算的账单,即被判定为账户欠费。欠费后,可能会影响云服务及相关资源的正常运行,需要及时充值。
登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存在volcano插件与gpu-device-plugin插件。 若未安装gpu-device-plugin插件,请安装该插件,具体操作请参见gpu-device-plugin。
分布式云原生-成长地图 | 华为云 华为云UCS 华为云UCS(Ubiquitous Cloud Native Service)为企业提供业务部署、管理、应用生态的全域一致性体验,突破集群地域、厂商、流量限制,把云原生的能力带入到企业的每一个业务场景,加速千行百业拥抱云原生。 文档
可单击插件名称查看实例异常事件 安装失败 插件安装失败,需要卸载后重新安装 升级失败 插件升级失败,可重试升级或卸载后重新安装 删除失败 插件删除失败,可重试卸载 未知 插件处于未知状态,需要卸载后重新安装 父主题: 为集群开启监控
您可选择集群的接入方式或单击右上角按钮查看详细的网络接入流程。 如您未在24小时内接入网络,将会导致集群注册失败,可单击右上角按钮重新注册集群。如果已经接入但数据未采集上来,请等待2分钟后刷新集群。 图1 集群等待接入状态 父主题: 本地集群
步骤一:准备工作 在使用UCS前,本小节将指导您进行一些必要的准备工作,包括注册华为云账号、为账号充值等。 注册华为云并实名认证 如果您已有一个华为云账户,请跳到下一个任务。如果您还没有华为云账户,请参考以下步骤创建。 打开华为云官网,单击“注册”。 根据提示信息完成注册,详细操作请参见注册和登录管理控制台
返回无状态工作负载列表查看工作负载状态。 在工作负载列表中,待工作负载状态为“运行中”,工作负载创建成功。 通过kubectl命令行创建NPU应用 本节以创建无状态工作负载(Deployment)为例,说明使用kubectl命令创建训练任务的方法。
设置完成后,单击“确定”,然后单击“创建”,即可跳转定时伸缩策略列表查看策略详情,完成CronFederatedHPA策略创建。 命令行创建 使用kubectl连接集群联邦,详细操作请参见使用kubectl连接集群联邦。 使用如下命令创建并编辑cfhpa.yaml文件。
查看“创建终端节点”中的服务名称,单击,记录服务名称。 图3 创建终端节点 登录VPC终端节点控制台,单击“创建终端节点”,创建连接不同服务的终端节点。 选择终端节点的区域。 选择“按名称查找服务”,输入所记录的服务名称,并单击“验证”。
kubectl apply -f agent.yaml 查看集群代理部署状态。
可通过以下命令查看容器镜像元数据: docker运行时执行:docker inspect <镜像ID> containerd运行时执行:crictl inspecti <镜像ID> 图2 有安全风险的工作负载配置示例 漏洞修复方案 规避措施 配置工作负载的WORKDIR为固定目录。
Images(38) migration finished, 0 images tasks failed, 0 tasks generate failed 结果查看。
查看所在节点的GPU显存隔离情况(在节点上执行)。
/ucs-ctl get kubeconfig -c test-redhat86 -o kubeconfig 可以使用ucs-ctl get kubeconfig -h查看获取KubeConfig所使用到的参数。
gpu-device-plugin 插件简介 gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
您可以单击集群联邦状态,查看详细的开通进度。开通成功后,容器舰队顶部的提示信息变为“集群联邦能力已开通 ,集群接入成功”。 添加集群 容器舰队开通集群联邦后,可以继续为舰队添加集群,添加后,集群会自动接入集群联邦。一个集群联邦最多可接入20个集群。
/ucs-ctl upgrade cluster [cluster name] 集群名称需要和创建本地集群时指定的名称一致,如果不确定名称可进集群内,使用命令查看: .