检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
com/gpu 指定申请GPU的数量,支持申请设置为小于1的数量,比如 nvidia.com/gpu: 0.5,这样可以多个Pod共享使用GPU。GPU数量小于1时,不支持跨GPU分配,如0.5 GPU只会分配到一张卡上。 指定nvidia.com/gpu后,在调度时不会将负载调
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
准备GPU资源 本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。 基础规划 配置 支持版本 集群版本 v1.25.15-r7及以上 操作系统 华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群
gpu-device-plugin 插件简介 gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
2 cce-gpu-topology-predicate GPU拓扑调度预选算法 - - cce-gpu-topology-priority GPU拓扑调度优选算法 - - cce-gpu 结合UCS的GPU插件支持GPU资源分配,支持小数GPU配置 说明: 小数GPU配置的前提条
od gpu: true ... 通过节点亲和性规则配置,也可以做到同样的事情,如下所示。 apiVersion: apps/v1 kind: Deployment metadata: name: gpu labels: app: gpu spec:
变动和固定时间周期进行负载伸缩,实现复杂场景下的负载伸缩。 多场景:使用场景广泛,典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理。 负载伸缩实现机制 UCS的负载伸缩能力是由FederatedHPA和CronFederatedHPA两种负载伸缩策略所实现的,如图1所示。
无论是单master还是多master故障,节点IP须保持不变。 集群备份 本地备份 创建备份文件压缩包存放的目录。 执行备份命令: ./ucs-ctl backup 集群名 --path 备份路径 --type local 示例如下: ./ucs-ctl backup gpu-test --path
节点--XGPU设备数量 节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率 GPU卡--XGPU设备算力使用率 GPU卡--XGPU设备数量 GPU卡--调度策略 GPU卡--不健康的XGPU设备数量 容器显存分配量
od gpu: true ... 通过节点亲和性规则配置,也可以做到同样的事情,如下所示。 apiVersion: apps/v1 kind: Deployment metadata: name: gpu labels: app: gpu spec:
限制:允许容器使用的内存最大值。如果超过,容器会被终止。 关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。 异构资源 当已安装gpu-device-plugin插件时,可配置GPU限制值,详情请参见GPU调度。 当已安装huawei-npu插件时,可配置NPU限制值,详情请参见NPU调度。 说明: 异构资源该参数,当前仅涉及本地集群工作负载。
kube-prometheus-stack插件 log-agent插件 metrics-server volcano huawei-npu插件 gpu-device-plugin e-backup插件 父主题: 单集群管理
本地集群KubeConfig文件 本地集群配置文件 管理本地集群节点 管理本地集群网络 升级本地集群 注销本地集群 使用ucs-ctl命令行工具管理本地集群 GPU调度 NPU调度 备份与恢复 父主题: 本地集群
25,因此HPA对象有autoscaling/v2和autoscaling/v1两个版本。然而,不论您创建的HPA版本为autoscaling/v2还是autoscaling/v1,联邦均会以autoscaling/v2版本进行分发。版本低于v1.23的集群不支持autoscaling/v
理平台,提供大量的云原生服务,并使用自研部署引擎,支持所有服务包统一管理、统一存储、全域分发,帮助您简化云原生服务的生命周期管理。 UCS深度集成云原生服务中心的功能,可真正实现服务的开箱即用,有效提升云原生服务能力与质量,支持服务的订阅、部署、升级、更新等操作。借助UCS的跨云
概述 应用服务网格(Application Service Mesh,简称ASM)是华为云基于开源Istio推出的服务网格平台,它深度、无缝对接了华为云的企业级Kubernetes集群服务云容器引擎(CCE),在易用性、可靠性、可视化等方面进行了一系列增强,可为客户提供开箱即用的上手体验。
限制:允许容器使用的内存最大值。如果超过,容器会被终止。 关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。 异构资源 当已安装gpu-device-plugin插件时,可配置GPU限制值,详情请参见GPU调度。 当已安装huawei-npu插件时,可配置NPU限制值,详情请参见NPU调度。 说明: 异构资源该参数,当前仅涉及本地集群工作负载。
镜像仓库 UCS深度整合了华为云容器镜像服务(SWR)能力,支持镜像全生命周期管理,为您提供简单易用、安全可靠的镜像管理功能,帮助您快速部署容器化服务。 通过使用容器镜像服务,您无需自建和维护镜像仓库,即可享有云上的镜像安全托管及高效分发服务,获得容器上云的顺畅体验。 产品功能 镜像全生命周期管理