检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU调度 GPU调度概述 准备GPU资源 创建GPU应用 监控GPU资源 父主题: 管理本地集群
com/gpu 指定申请GPU的数量,支持申请设置为小于1的数量,比如 nvidia.com/gpu: 0.5,这样可以多个Pod共享使用GPU。GPU数量小于1时,不支持跨GPU分配,如0.5 GPU只会分配到一张卡上。 指定nvidia.com/gpu后,在调度时不会将负载调
GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户定义使用的GPU数量,提高GPU利用率。 GPU虚拟化功能优势如下: 灵活:精细配置GPU算力占比及显存大
监控GPU资源 本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。 前提条件 完成GPU资源准备。 当前本地集群已创建GPU资源。 当前本地集群开启了监控能力。 GPU监控 登录UCS控制台,在左侧导航栏选择“容器智能分析”。 选择对应的集群并开启监控,详细操作请参照集群开启监控。
准备GPU资源 本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。 基础规划 配置 支持版本 集群版本 v1.25.15-r7及以上 操作系统 华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57
gpu-device-plugin 插件简介 gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 约束与限制 下载的驱动必须是后缀为“.run”的文件。 仅支持Nvidia Tesla驱动,不支持GRID驱动。
od gpu: true ... 通过节点亲和性规则配置,也可以做到同样的事情,如下所示。 apiVersion: apps/v1 kind: Deployment metadata: name: gpu labels: app: gpu spec:
od gpu: true ... 通过节点亲和性规则配置,也可以做到同样的事情,如下所示。 apiVersion: apps/v1 kind: Deployment metadata: name: gpu labels: app: gpu spec:
挑战二:弹性能力不足,无法满足大量在线用户并发接入,网络时延较高。 挑战三:涉及业务种类繁多,集群部署分散,运维管理困难。 优势 UCS平台将边缘云、IDC、华为云资源有机整合,实现算力、流量、数据统一管理,加速汽车行业的数字化转型。 算力统一供给 打造敏态稳态业务共平台,整合
2 cce-gpu-topology-predicate GPU拓扑调度预选算法 - - cce-gpu-topology-priority GPU拓扑调度优选算法 - - cce-gpu 结合UCS的GPU插件支持GPU资源分配,支持小数GPU配置 说明: 小数GPU配置的前提条
为应对业务高峰期的流量冲击,UCS提供了智能的分布式流量治理和算力调度管理能力,灵活分配业务流量和边云资源,有效提升业务稳定性和用户体验。 优势 用户就近接入 根据用户所属区域,实现智能路由、就近接入,减少业务端到端时延。 统一算力供给 跨地域算力协同,根据直播人数和应用需要,灵活调度边端、云端资源,提升资源利用率。
本地集群KubeConfig文件 本地集群配置文件 管理本地集群节点 管理本地集群网络 升级本地集群 注销本地集群 使用ucs-ctl命令行工具管理本地集群 GPU调度 NPU调度 备份与恢复 父主题: 本地集群
多功能:支持基于系统指标变动、自定义指标变动和固定时间周期进行负载伸缩,实现复杂场景下的负载伸缩。 多场景:使用场景广泛,典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理。 负载伸缩实现机制 UCS的负载伸缩能力是由FederatedHPA和CronFederatedH
样本丢弃率/失败率/重试率 入队失败重试率 GPU视图 集群 集群-显存使用率 集群-算力使用率 节点-显存使用量 节点-显存使用率 节点-算力使用率 GPU卡-显存使用量 GPU卡-算力使用率 GPU卡-温度 GPU卡-显存频率 GPU卡-PCle带宽 XGPU视图 集群 集群--XGPU设备显存使用率
创建终端节点以私网接入本地集群 应用场景 用户在线下IDC有kubernetes集群,接入到UCS开启容器智能分析服务,能够与SWR、OBS通信,在无法通过公网连接的情况下,可以先通过VPN与华为云VPC连接,然后通过VPC终端节点服务,让VPC能够在内网访问UCS、SWR、DNS、OBS、CIA。
限制:允许容器使用的内存最大值。如果超过,容器会被终止。 关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。 异构资源 当已安装gpu-device-plugin插件时,可配置GPU限制值,详情请参见GPU调度。 当已安装huawei-npu插件时,可配置NPU限制值,详情请参见NPU调度。 说明: 异构资源该参数,当前仅涉及本地集群工作负载。
kube-prometheus-stack插件 log-agent插件 metrics-server volcano huawei-npu插件 gpu-device-plugin e-backup插件 父主题: 单集群管理
图1 工作负载详情页 编辑YAML 可通过在线YAML编辑窗对无状态工作负载、有状态工作负载、守护进程集、定时任务和容器组的YAML文件进行修改和下载。普通任务的YAML文件仅支持查看、复制和下载。本文以无状态工作负载为例说明如何在线编辑YAML。 登录UCS控制台,进入一个已
流量治理要解决的问题类似如下: 动态修改服务间访问的负载均衡策略,比如配置一致性哈希将流量转发到特定的服务实例上。 同一个服务有两个版本在线,将一部分流量切到某个版本上。 服务保护,如限制并发连接数、限制请求数、隔离有故障的服务实例等。 动态修改服务中的内容,或者模拟一个服务运行故障等。
backup 集群名 --path 备份路径 --type local 示例如下: ./ucs-ctl backup gpu-test --path /home/ggz/gpu-test --type local 执行成功后,会在指定的备份路径下产生名为:集群名-backup-时间戳.tar