检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
54.03版本的GPU驱动。 容器运行时 containerd 插件 集群中需要同时安装以下插件: volcano插件:1.10.1及以上版本 gpu-device-plugin插件:2.0.0及以上版本 步骤一:纳管并标记GPU节点 如果您的集群中已有符合基础规划的GPU节点,您可以跳过此步骤。
GPU调度概述 工作负载支持使用节点GPU资源,GPU资源使用可以分为如下两种模式: GPU静态分配(共享/独享):按比例给Pod分配GPU显卡资源,支持独享(分配单张/多张显卡)和共享(部分显卡)方式。 GPU虚拟化:UCS On Premises GPU采用xGPU虚拟化技术
com/gpu 指定申请GPU的数量,支持申请设置为小于1的数量,比如 nvidia.com/gpu: 0.5,这样可以多个Pod共享使用GPU。GPU数量小于1时,不支持跨GPU分配,如0.5 GPU只会分配到一张卡上。 指定nvidia.com/gpu后,在调度时不会将负载调
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群
gpu-device-plugin 插件简介 gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
2 cce-gpu-topology-predicate GPU拓扑调度预选算法 - - cce-gpu-topology-priority GPU拓扑调度优选算法 - - cce-gpu 结合UCS的GPU插件支持GPU资源分配,支持小数GPU配置 说明: 小数GPU配置的前提条
节点亲和的规则只能影响Pod和节点之间的亲和,Kubernetes还支持Pod和Pod之间的亲和,例如将应用的前端和后端部署在一起,从而减少访问延迟。Pod亲和同样有requiredDuringSchedulingIgnoredDuringExecution和preferredDur
多功能:支持基于系统指标变动、自定义指标变动和固定时间周期进行负载伸缩,实现复杂场景下的负载伸缩。 多场景:使用场景广泛,典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理。 负载伸缩实现机制 UCS的负载伸缩能力是由FederatedHPA和CronFederate
节点--XGPU设备数量 节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率 GPU卡--XGPU设备算力使用率 GPU卡--XGPU设备数量 GPU卡--调度策略 GPU卡--不健康的XGPU设备数量 容器显存分配量
节点亲和的规则只能影响Pod和节点之间的亲和,Kubernetes还支持Pod和Pod之间的亲和,例如将应用的前端和后端部署在一起,从而减少访问延迟。Pod亲和同样有requiredDuringSchedulingIgnoredDuringExecution和preferredDur
限制:允许容器使用的内存最大值。如果超过,容器会被终止。 关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。 异构资源 当已安装gpu-device-plugin插件时,可配置GPU限制值,详情请参见GPU调度。 当已安装huawei-npu插件时,可配置NPU限制值,详情请参见NPU调度。 说明: 异构资源该参数,当前仅涉及本地集群工作负载。
backup 集群名 --path 备份路径 --type local 示例如下: ./ucs-ctl backup gpu-test --path /home/ggz/gpu-test --type local 执行成功后,会在指定的备份路径下产生名为:集群名-backup-时间戳.tar
kube-prometheus-stack插件 log-agent插件 metrics-server volcano huawei-npu插件 gpu-device-plugin e-backup插件 父主题: 单集群管理
开源服务包和服务商提供的服务包在提交审核申请后,经由华为云对该服务进行验证和相关审核后,如果该服务具有良好的服务质量和品质,OSC服务目录中将对该服务包增加“华为认证”标签。此类“华为认证”服务包至少能够在华为云CCE集群和UCS On-Premise集群中进行部署,并能够确保功能的可用性、可维护性。
本地集群KubeConfig文件 本地集群配置文件 管理本地集群节点 管理本地集群网络 升级本地集群 注销本地集群 使用ucs-ctl命令行工具管理本地集群 GPU调度 NPU调度 备份与恢复 父主题: 本地集群
平台,它深度、无缝对接了华为云的企业级Kubernetes集群服务云容器引擎(CCE),在易用性、可靠性、可视化等方面进行了一系列增强,可为客户提供开箱即用的上手体验。 ASM提供非侵入式的微服务治理解决方案,支持完整的生命周期管理和流量治理,兼容Kubernetes和Istio
为:swr.cn-north-4.myhuaweicloud.com。SWR的应用区域请参见地区和终端节点。 密钥数据 工作负载密钥的数据可以在容器中使用,输入私有镜像仓库的用户名和密码。 使用SWR时,用户名密码的获取方式如下: 单击右上角用户名,前往“我的凭证 > 管理访问密
为网格添加集群 企业版网格支持对多个集群进行管理,且支持服务跨集群通信。 约束与限制 目前支持v1.21、v1.23和v1.25版本的集群加入企业版网格。 为了满足高可用的要求,集群需要至少包含两个可用节点,每个节点至少保证有2U4G的可用资源。 集群的容器网段不能和网格内已有集群的
限制:允许容器使用的内存最大值。如果超过,容器会被终止。 关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。 异构资源 当已安装gpu-device-plugin插件时,可配置GPU限制值,详情请参见GPU调度。 当已安装huawei-npu插件时,可配置NPU限制值,详情请参见NPU调度。 说明: 异构资源该参数,当前仅涉及本地集群工作负载。