搜索_华为云

调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。 GPU虚拟化 NPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
什么是云容器引擎 - 云容器引擎 CCE

可扩展的、高性能的云原生应用部署和管理方案。为什么选择云容器引擎云容器引擎深度整合高性能的计算（ECS/BMS）、网络（VPC/EIP/ELB）、存储（EVS/OBS/SFS）等服务，并支持GPU、NPU、ARM等异构计算架构，支持多可用区（Available Zone，简称

 帮助中心 > 云容器引擎 CCE > 产品介绍
异构资源配置 - 云容器引擎 CCE

异构资源配置 GPU配置 GPU虚拟化：CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高

 帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
节点规格说明 - 云容器引擎 CCE

NVIDIA V100 NVLink（GPU直通） 5120 15.7TFLOPS 单精度浮点计算 7.8TFLOPS 双精度浮点计算 125TFLOPS Tensor Core 深度学习加速 300GiB/s NVLINK 机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码。

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点
设置节点亲和调度（nodeAffinity） - 云容器引擎 CCE

某些节点支持使用GPU算力，则可以使用节点亲和调度，确保高性能计算的Pod最终运行在GPU节点上。配置节点亲和调度策略您可以通过不同的方式配置节点亲和性调度策略，将Pod调度到满足条件的节点。通过控制台配置通过YAML配置本文示例中，集群内已创建GPU节点，并设置标签为

 帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 调度工作负载
在CCE集群中部署使用Tensorflow - 云容器引擎 CCE

在CCE集群中部署使用Tensorflow 资源准备购买CCE集群，购买GPU节点并使用gpu-beta插件安装显卡驱动。在集群下添加一个对象存储卷。数据预置从https://github.com/zalandoresearch/fashion-mnist下载数据。获取

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算
XGPU视图 - 云容器引擎 CCE
XGPU视图 - 云容器引擎 CCE

百分比每张GPU卡上的GPU虚拟化设备显存使用率计算公式：显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量字节每张GPU卡上的GPU虚拟化设备的显存总量 GPU卡-XGPU设备显存分配率百分比每张GPU卡上的GPU虚拟化设备的显存总量占这张GPU卡显存总量的比例

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
容器resource资源 - 云容器引擎 CCE

512Mi 允许 - GPU数量参数名取值范围默认值是否允许修改作用范围 nvidia.com/gpu 0-0.99间小数或大于等于1小于等于10的整数无允许 - Kubernetes原生GPU资源配额，配置时limit和request配置相同 GPU虚拟化资源：显存参数名

 帮助中心 > 云容器引擎 CCE > 配置参考 > Pod
Volcano调度概述 - 云容器引擎 CCE

Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
Volcano调度器版本发布记录 - 云容器引擎 CCE

21 v1.23 v1.25 volcano agent支持资源超卖。添加针对GPU资源字段的校验admission：nvidia.com/gpu应小于1或者为正整数，volcano.sh/gpu-core.percentage应小于100并为5的倍数。修复存在PVC绑定失败的场景下，后续提交Pod调度慢的问题。

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
弹性伸缩概述 - 云容器引擎 CCE

群增加节点，从而保证业务能够正常提供服务。弹性伸缩在CCE上的使用场景非常广泛，典型的场景包含在线业务弹性、大规模计算训练、深度学习GPU或共享GPU的训练与推理、定时周期性负载变化等。 CCE弹性伸缩 CCE的弹性伸缩能力分为如下两个维度：工作负载弹性伸缩：即调度层弹性，主

 帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩
NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

AI套件（NVIDIA GPU）插件或插件版本低于2.0.0，则不涉及该漏洞。 CCE AI套件（NVIDIA GPU）插件老版本命名为：gpu-beta、gpu-device-plugin。如果CCE AI套件（NVIDIA GPU）插件版本大于等于2.0.0，请登录GPU节点执行以下命令：

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
功能总览 - 云容器引擎 CCE
功能总览 - 云容器引擎 CCE

Turbo集群支持 CCE基于Volcano调度器提供多元算力资源调度及任务调度的能力，面向机器学习、深度学习、生物信息学、基因组学及其他大数据应用场景提供完整的应用调度特性。 CCE支持CPU资源调度、GPU/NPU异构资源调度、在离线作业混合部署、CPU Burst弹性限流等调度策略，您可

 帮助中心 > 云容器引擎 CCE > 功能总览
亲和与反亲和调度 - 云容器引擎 CCE

od gpu: true ... 通过节点亲和性规则配置，也可以做到同样的事情，如下所示。 apiVersion: apps/v1 kind: Deployment metadata: name: gpu labels: app: gpu spec:

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > Pod的编排与调度
目标集群资源规划 - 云容器引擎 CCE

、开发、测试环境以及中低性能数据库等场景。 GPU加速型：提供优秀的浮点计算能力，从容应对高实时、高并发的海量计算场景。P系列适合于深度学习，科学计算，CAE等；G系列适合于3D动画渲染，CAD等。仅支持1.11及以上版本集群添加GPU加速型节点。高性能计算型：实例提供具有更稳

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 迁移 > 将K8s集群迁移到CCE
为什么Pod在节点不是均匀分布？ - 云容器引擎 CCE

例如工作负载挂载某个可用区的云硬盘时只能调度到相同可用区的节点上。节点特殊资源：部分Pod可能请求特殊的资源类型，例如GPU等资源，调度器只能将其调度到GPU类型的节点上。节点健康状态：节点的健康状况和状态可能影响调度决策，不健康的节点可能不会调度新的Pod。为什么Pod实际负载在节点上分布不均匀

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
Caffe分类范例 - 云容器引擎 CCE
Caffe分类范例 - 云容器引擎 CCE

可以看到推理使用的图片。登录在集群中添加GPU节点添加的节点，执行docker logs {容器id}查看归类结果，可以看到结果：tabby cat。使用GPU 创建一个普通job，镜像输入第三方镜像bvlc/caffe:gpu，设置对应的容器规格。启动命令添加python

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Caffe
修改CCE集群配置 - 云容器引擎 CCE

集群规格为1000节点及以上时，默认值200 开启GPU共享 enable-gpu-share 是否开启GPU共享，该参数仅v1.23.7-r10、v1.25.3-r0及以上版本集群支持。关闭GPU共享时，需保证集群中的Pod没有使用共享GPU能力（即Pod不存在cce.io/gpu-decision的a

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 管理集群
创建定时任务（CronJob） - 云容器引擎 CCE

建议请参见设置容器规格。 GPU配额（可选）当集群中包含GPU节点时，才能设置GPU配额，且集群中需安装CCE AI套件（NVIDIA GPU）插件。不使用：表示不使用GPU。 GPU 整卡：单个容器独享GPU。 GPU 虚拟化：容器需要使用的GPU百分比，例如设置为10%，表示该容器需使用GPU资源的10%。

帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 创建工作负载
集群调度器配置 - 云容器引擎 CCE

集群调度器配置开启GPU共享是否开启GPU共享能力参数名取值范围默认值是否允许修改作用范围 enable-gpu-share true/false true 允许 CCE Standard/CCE Turbo 配置建议： true 默认调度器集群调度器选择开关，用户可自定义调度器模式。

帮助中心 > 云容器引擎 CCE > 配置参考 > 集群

总条数： 172

上一页
1
2
3
4
5
...
9
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

调度概述 - 云容器引擎 CCE

什么是云容器引擎 - 云容器引擎 CCE

异构资源配置 - 云容器引擎 CCE

节点规格说明 - 云容器引擎 CCE

设置节点亲和调度（nodeAffinity） - 云容器引擎 CCE

在CCE集群中部署使用Tensorflow - 云容器引擎 CCE

XGPU视图 - 云容器引擎 CCE

容器resource资源 - 云容器引擎 CCE

Volcano调度概述 - 云容器引擎 CCE

Volcano调度器版本发布记录 - 云容器引擎 CCE

弹性伸缩概述 - 云容器引擎 CCE

NVIDIA Container Toolkit容器逃逸漏洞公告（CVE-2024-0132） - 云容器引擎 CCE

功能总览 - 云容器引擎 CCE

亲和与反亲和调度 - 云容器引擎 CCE

目标集群资源规划 - 云容器引擎 CCE

为什么Pod在节点不是均匀分布？ - 云容器引擎 CCE

Caffe分类范例 - 云容器引擎 CCE

修改CCE集群配置 - 云容器引擎 CCE

创建定时任务（CronJob） - 云容器引擎 CCE

集群调度器配置 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线