搜索_华为云

GPU调度 - 华为云UCS
GPU调度 - 华为云UCS

GPU调度 GPU调度概述准备GPU资源创建GPU应用监控GPU资源父主题：管理本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU采用xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户定义使用的GPU数量，提高GPU利用率。 GPU虚拟化功能优势如下：灵活：精细配置GPU算力占比及显存大

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
创建GPU应用 - 华为云UCS
创建GPU应用 - 华为云UCS

分配到一张卡上。 GPU虚拟化模式：显存：GPU虚拟化配置项。显存值单位为Mi，需为128的整数倍，最小值为128Mi，若配置的显存超过单张GPU卡的显存，将会出现无法调度状况。算力：GPU虚拟化配置项。算力值单位为%，需为5的倍数，且最大不超过100。算力可以不填写，不填表示显存隔离算力共享。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
监控GPU资源 - 华为云UCS
监控GPU资源 - 华为云UCS

监控GPU资源本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。前提条件完成GPU资源准备。当前本地集群已创建GPU资源。当前本地集群开启了监控能力。 GPU监控登录UCS控制台，在左侧导航栏选择“容器智能分析”。选择对应的集群并开启监控，详细操作请参照集群开启监控。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
准备GPU资源 - 华为云UCS
准备GPU资源 - 华为云UCS

准备GPU资源本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。基础规划配置支持版本集群版本 v1.25.15-r7及以上操作系统华为云欧拉操作系统 2.0 系统架构 X86 GPU类型 T4、V100 驱动版本 GPU虚拟化功能仅支持470.57

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
gpu-device-plugin - 华为云UCS
gpu-device-plugin - 华为云UCS

GPU虚拟化：选择开启GPU虚拟化，支持GPU单卡的算力、显存分割与隔离。若集群中未安装volcano插件，将不支持开启GPU虚拟化，您可单击“一键安装”进行安装。如需配置volcano插件参数，请单击“自定义安装”，详情请参见volcano。若集群中已安装volcano插件，但插件版本不

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 插件管理
本地集群概述 - 华为云UCS
本地集群概述 - 华为云UCS

全面兼容Prometheus生态：云原生标准监控采集和日志采集接口，支持自定义扩展，全面涵盖集群、容器、应用各层次的监控、日志、告警、调用链等。在线运维：支持系统日常巡检在线操作，原厂运维快速接入解决疑难故障。接入网络方式 UCS使用集群网络代理的连接方式，如图2 集群接入原理所示。您无需在防火墙

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群
调度策略（亲和与反亲和） - 华为云UCS

od gpu: true ... 通过节点亲和性规则配置，也可以做到同样的事情，如下所示。 apiVersion: apps/v1 kind: Deployment metadata: name: gpu labels: app: gpu spec:

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 工作负载
管理本地集群 - 华为云UCS
管理本地集群 - 华为云UCS

本地集群KubeConfig文件本地集群配置文件管理本地集群节点管理本地集群网络注销本地集群使用ucs-ctl命令行工具管理本地集群 GPU调度 NPU调度备份与恢复父主题：本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群
汽车行业场景 - 华为云UCS
汽车行业场景 - 华为云UCS

挑战二：弹性能力不足，无法满足大量在线用户并发接入，网络时延较高。挑战三：涉及业务种类繁多，集群部署分散，运维管理困难。优势 UCS平台将边缘云、IDC、华为云资源有机整合，实现算力、流量、数据统一管理，加速汽车行业的数字化转型。算力统一供给打造敏态稳态业务共平台，整合

 帮助中心 > 华为云UCS > 产品介绍 > 应用场景
配置调度策略（亲和与反亲和） - 华为云UCS

od gpu: true ... 通过节点亲和性规则配置，也可以做到同样的事情，如下所示。 apiVersion: apps/v1 kind: Deployment metadata: name: gpu labels: app: gpu spec:

帮助中心 > 华为云UCS > 用户指南 > 集群联邦 > 工作负载 > 容器设置
volcano - 华为云UCS
volcano - 华为云UCS

2 cce-gpu-topology-predicate GPU拓扑调度预选算法 - - cce-gpu-topology-priority GPU拓扑调度优选算法 - - cce-gpu 结合UCS的GPU插件支持GPU资源分配，支持小数GPU配置说明：小数GPU配置的前提条

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 插件管理
仪表盘 - 华为云UCS
仪表盘 - 华为云UCS

样本丢弃率/失败率/重试率入队失败重试率 GPU视图集群集群-显存使用率集群-算力使用率节点-显存使用量节点-显存使用率节点-算力使用率 GPU卡-显存使用量 GPU卡-算力使用率 GPU卡-温度 GPU卡-显存频率 GPU卡-PCle带宽 XGPU视图集群集群--XGPU设备显存使用率

 帮助中心 > 华为云UCS > 用户指南 > 可观测性 > 容器智能分析
负载伸缩概述 - 华为云UCS
负载伸缩概述 - 华为云UCS

多功能：支持基于系统指标变动、自定义指标变动和固定时间周期进行负载伸缩，实现复杂场景下的负载伸缩。多场景：使用场景广泛，典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理。负载伸缩实现机制 UCS的负载伸缩能力是由FederatedHPA和CronFederatedH

帮助中心 > 华为云UCS > 用户指南 > 集群联邦 > 多集群负载伸缩
创建终端节点以私网接入本地集群 - 华为云UCS

创建终端节点以私网接入本地集群应用场景用户在线下IDC有kubernetes集群，接入到UCS开启容器智能分析服务，能够与SWR、OBS通信，在无法通过公网连接的情况下，可以先通过VPN与华为云VPC连接，然后通过VPC终端节点服务，让VPC能够在内网访问UCS、SWR、DNS、OBS、CIA。

帮助中心 > 华为云UCS > 最佳实践 > 集群
任务和定时任务 - 华为云UCS
任务和定时任务 - 华为云UCS

限制：允许容器使用的内存最大值。如果超过，容器会被终止。关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。异构资源当已安装gpu-device-plugin插件时，可配置GPU限制值，详情请参见GPU调度。当已安装huawei-npu插件时，可配置NPU限制值，详情请参见NPU调度。说明：异构资源该参数，当前仅涉及本地集群工作负载。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 工作负载
管理工作负载 - 华为云UCS
管理工作负载 - 华为云UCS

图1 工作负载详情页编辑YAML 可通过在线YAML编辑窗对无状态工作负载、有状态工作负载、守护进程集、定时任务和容器组的YAML文件进行修改和下载。普通任务的YAML文件仅支持查看、复制和下载。本文以无状态工作负载为例说明如何在线编辑YAML。登录UCS控制台，进入一个已

 帮助中心 > 华为云UCS > 用户指南 > 集群联邦 > 工作负载
插件管理 - 华为云UCS
插件管理 - 华为云UCS

kube-prometheus-stack插件 log-agent插件 metrics-server volcano huawei-npu插件 gpu-device-plugin e-backup插件父主题：单集群管理

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理
概述 - 华为云UCS
概述 - 华为云UCS

流量治理要解决的问题类似如下：动态修改服务间访问的负载均衡策略，比如配置一致性哈希将流量转发到特定的服务实例上。同一个服务有两个版本在线，将一部分流量切到某个版本上。服务保护，如限制并发连接数、限制请求数、隔离有故障的服务实例等。动态修改服务中的内容，或者模拟一个服务运行故障等。

帮助中心 > 华为云UCS > 用户指南 > 服务网格 > 流量治理
备份与恢复 - 华为云UCS
备份与恢复 - 华为云UCS

backup 集群名 --path 备份路径 --type local 示例如下： ./ucs-ctl backup gpu-test --path /home/ggz/gpu-test --type local 执行成功后，会在指定的备份路径下产生名为：集群名-backup-时间戳.tar

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群

总条数： 35

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消