搜索_华为云

GPU调度 - 华为云UCS
GPU调度 - 华为云UCS

GPU调度 GPU调度概述准备GPU资源创建GPU应用监控GPU资源父主题：管理本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群
创建GPU应用 - 华为云UCS
创建GPU应用 - 华为云UCS

com/gpu 指定申请GPU的数量，支持申请设置为小于1的数量，比如 nvidia.com/gpu: 0.5，这样可以多个Pod共享使用GPU。GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。指定nvidia.com/gpu后，在调度时不会将负载调

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU调度概述工作负载支持使用节点GPU资源，GPU资源使用可以分为如下两种模式： GPU静态分配（共享/独享）：按比例给Pod分配GPU显卡资源，支持独享（分配单张/多张显卡）和共享（部分显卡）方式。 GPU虚拟化：UCS On Premises GPU采用xGPU虚拟化技术

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
gpu-device-plugin - 华为云UCS
gpu-device-plugin - 华为云UCS

gpu-device-plugin 插件简介 gpu-device-plugin插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。约束与限制下载的驱动必须是后缀为“.run”的文件。仅支持Nvidia Tesla驱动，不支持GRID驱动。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 插件管理
准备GPU资源 - 华为云UCS
准备GPU资源 - 华为云UCS

54.03版本的GPU驱动。容器运行时 containerd 插件集群中需要同时安装以下插件： volcano插件：1.10.1及以上版本 gpu-device-plugin插件：2.0.0及以上版本步骤一：纳管并标记GPU节点如果您的集群中已有符合基础规划的GPU节点，您可以跳过此步骤。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
调度策略（亲和与反亲和） - 华为云UCS

节点亲和的规则只能影响Pod和节点之间的亲和，Kubernetes还支持Pod和Pod之间的亲和，例如将应用的前端和后端部署在一起，从而减少访问延迟。Pod亲和同样有requiredDuringSchedulingIgnoredDuringExecution和preferredDur

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 工作负载
配置调度策略（亲和与反亲和） - 华为云UCS

节点亲和的规则只能影响Pod和节点之间的亲和，Kubernetes还支持Pod和Pod之间的亲和，例如将应用的前端和后端部署在一起，从而减少访问延迟。Pod亲和同样有requiredDuringSchedulingIgnoredDuringExecution和preferredDur

帮助中心 > 华为云UCS > 用户指南 > 集群联邦 > 工作负载 > 容器设置
监控GPU资源 - 华为云UCS
监控GPU资源 - 华为云UCS

监控GPU资源本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。前提条件完成GPU资源准备。当前本地集群已创建GPU资源。当前本地集群开启了监控能力。 GPU监控登录UCS控制台，在左侧导航栏选择“容器智能分析”。选择对应的集群并开启监控，详细操作请参照集群开启监控。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
volcano - 华为云UCS
volcano - 华为云UCS

2 cce-gpu-topology-predicate GPU拓扑调度预选算法 - - cce-gpu-topology-priority GPU拓扑调度优选算法 - - cce-gpu 结合UCS的GPU插件支持GPU资源分配，支持小数GPU配置说明：小数GPU配置的前提条

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 插件管理
无状态负载 - 华为云UCS
无状态负载 - 华为云UCS

限制：允许容器使用的内存最大值。如果超过，容器会被终止。关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。异构资源当已安装gpu-device-plugin插件时，可配置GPU限制值，详情请参见GPU调度。当已安装huawei-npu插件时，可配置NPU限制值，详情请参见NPU调度。说明：异构资源该参数，当前仅涉及本地集群工作负载。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 工作负载
有状态负载 - 华为云UCS
有状态负载 - 华为云UCS

限制：允许容器使用的内存最大值。如果超过，容器会被终止。关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。异构资源当已安装gpu-device-plugin插件时，可配置GPU限制值，详情请参见GPU调度。当已安装huawei-npu插件时，可配置NPU限制值，详情请参见NPU调度。说明：异构资源该参数，当前仅涉及本地集群工作负载。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 工作负载
负载伸缩概述 - 华为云UCS
负载伸缩概述 - 华为云UCS

多功能：支持基于系统指标变动、自定义指标变动和固定时间周期进行负载伸缩，实现复杂场景下的负载伸缩。多场景：使用场景广泛，典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理。负载伸缩实现机制 UCS的负载伸缩能力是由FederatedHPA和CronFederate

帮助中心 > 华为云UCS > 用户指南 > 集群联邦 > 多集群负载伸缩
管理本地集群 - 华为云UCS
管理本地集群 - 华为云UCS

本地集群KubeConfig文件本地集群配置文件管理本地集群节点管理本地集群网络升级本地集群注销本地集群使用ucs-ctl命令行工具管理本地集群 GPU调度 NPU调度备份与恢复父主题：本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群
仪表盘 - 华为云UCS
仪表盘 - 华为云UCS

节点--XGPU设备数量节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率 GPU卡--XGPU设备算力使用率 GPU卡--XGPU设备数量 GPU卡--调度策略 GPU卡--不健康的XGPU设备数量容器显存分配量

 帮助中心 > 华为云UCS > 用户指南 > 可观测性 > 容器智能分析
为网格添加集群 - 华为云UCS
为网格添加集群 - 华为云UCS

为网格添加集群企业版网格支持对多个集群进行管理，且支持服务跨集群通信。约束与限制目前支持v1.21、v1.23和v1.25版本的集群加入企业版网格。为了满足高可用的要求，集群需要至少包含两个可用节点，每个节点至少保证有2U4G的可用资源。集群的容器网段不能和网格内已有集群的

 帮助中心 > 华为云UCS > 用户指南 > 服务网格 > 网格管理
插件管理 - 华为云UCS
插件管理 - 华为云UCS

kube-prometheus-stack插件 log-agent插件 metrics-server volcano huawei-npu插件 gpu-device-plugin e-backup插件父主题：单集群管理

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理
守护进程集 - 华为云UCS
守护进程集 - 华为云UCS

限制：允许容器使用的内存最大值。如果超过，容器会被终止。关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。异构资源当已安装gpu-device-plugin插件时，可配置GPU限制值，详情请参见GPU调度。当已安装huawei-npu插件时，可配置NPU限制值，详情请参见NPU调度。说明：异构资源该参数，当前仅涉及本地集群工作负载。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 工作负载
备份与恢复 - 华为云UCS
备份与恢复 - 华为云UCS

backup 集群名 --path 备份路径 --type local 示例如下： ./ucs-ctl backup gpu-test --path /home/ggz/gpu-test --type local 执行成功后，会在指定的备份路径下产生名为：集群名-backup-时间戳.tar

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群
任务和定时任务 - 华为云UCS
任务和定时任务 - 华为云UCS

限制：允许容器使用的内存最大值。如果超过，容器会被终止。关于CPU/内存配额申请和限制的具体说明请参见设置容器规格。异构资源当已安装gpu-device-plugin插件时，可配置GPU限制值，详情请参见GPU调度。当已安装huawei-npu插件时，可配置NPU限制值，详情请参见NPU调度。说明：异构资源该参数，当前仅涉及本地集群工作负载。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 单集群管理 > 工作负载
数据规划 - 华为云UCS
数据规划 - 华为云UCS

10000 - UCS本地集群服务进程的运行用户、用户组，在安装过程中创建。该用户和用户组对应名称为paas:paas，用户ID和用户组ID对应为10000:10000，因此安装前需要保证用户名、用户组名、用户ID和用户组ID不被占用。若发生冲突，需提前删除对应的用户或者用户组。父主题：

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 安装本地集群的业务规划

总条数： 32

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU调度 - 华为云UCS

创建GPU应用 - 华为云UCS

GPU调度概述 - 华为云UCS

gpu-device-plugin - 华为云UCS

准备GPU资源 - 华为云UCS

调度策略（亲和与反亲和） - 华为云UCS

配置调度策略（亲和与反亲和） - 华为云UCS

监控GPU资源 - 华为云UCS

volcano - 华为云UCS

无状态负载 - 华为云UCS

有状态负载 - 华为云UCS

负载伸缩概述 - 华为云UCS

管理本地集群 - 华为云UCS

仪表盘 - 华为云UCS

为网格添加集群 - 华为云UCS

插件管理 - 华为云UCS

守护进程集 - 华为云UCS

备份与恢复 - 华为云UCS

任务和定时任务 - 华为云UCS

数据规划 - 华为云UCS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线