搜索_华为云

高性能调度 - 云容器引擎 CCE
高性能调度 - 云容器引擎 CCE

性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等能力。应用场景1：多类型作业混合部署随着各行各业的发展，涌现出越来越多的领域框架来支持业务的发展，这些框架都在相应的业务领域有着不可替代的作用，例如Spark，Tensorflow，Flink等。在业务复杂性能不断增加

 帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
GPU虚拟化 - 云容器引擎 CCE
GPU虚拟化 - 云容器引擎 CCE

GPU虚拟化 GPU虚拟化概述准备GPU虚拟化资源使用GPU虚拟化兼容Kubernetes默认GPU调度模式父主题： GPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU节点驱动版本 - 云容器引擎 CCE

GPU节点驱动版本选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表手动更新GPU节点驱动版本通过节点池升级节点的GPU驱动版本父主题： GPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU插件检查异常处理 - 云容器引擎 CCE

GPU插件检查异常处理检查项内容检查到本次升级涉及GPU插件，可能影响新建GPU节点时GPU驱动的安装。解决方案由于当前GPU插件的驱动配置由您自行配置，需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件，并配置当前GPU驱动后，测试创建节点是否正常使用。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标应用场景集群中包含GPU节点时，需要了解GPU应用使用节点GPU资源的情况，例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，或者根据GPU指标设置告警规则。本文基于开源Prometheus和DCGM

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。 GPU虚拟化 NPU调度

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
什么是云容器引擎 - 云容器引擎 CCE

组网规模最大支持2000节点云原生网络2.0：面向大规模和高性能的场景。网络性能 VPC网络叠加容器网络，性能有一定损耗 VPC网络和容器网络融合，性能无损耗 VPC网络和容器网络融合，性能无损耗容器网络隔离容器隧道网络模式：集群内部网络隔离策略，支持NetworkPolicy。

帮助中心 > 云容器引擎 CCE > 产品介绍
GPU节点使用nvidia驱动启动容器排查思路 - 云容器引擎 CCE

GPU节点使用nvidia驱动启动容器排查思路集群中的节点是否有资源调度失败的事件？问题现象：节点运行正常且有GPU资源，但报如下失败信息： 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路：确认节点标签是否已经打上nvidia资源。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
如何配置Pod使用GPU节点的加速能力？ - 云容器引擎 CCE

如何配置Pod使用GPU节点的加速能力？问题描述我已经购买了GPU节点，但运行速度还是很慢，请问如何配置Pod使用GPU节点的加速能力。解答方案1：建议您将集群中GPU节点的不可调度的污点去掉，以便GPU插件驱动能够正常安装，同时您需要安装高版本的GPU驱动。如果您的集

 帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动，尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化，我们将及时跟进帮助您升级修复。如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动，请参考上图确认您安装的GPU驱动是否受该漏洞影响。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件介绍 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。字段说明表1 参数描述参数是否必选参数类型描述 basic 是 object 插件基础配置参数。

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
Volcano调度概述 - 云容器引擎 CCE

Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano Scheduler

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

登录CCE控制台，在左侧导航栏中选择“节点管理”，切换至“节点”页签，查看GPU节点的IP。本文中以192.168.0.106为例。登录GPU节点，通过以下命令查看GPU卡的信息。 nvidia-smi 可以看到该机器上存在1张卡GPU0。本文以GPU0为例，定位使用这张卡的Pod。根据节点IP（即192

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

在GPU服务容器中发现一些新增的文件core.*，在以前的部署中没有出现过。问题定位 GPU插件的驱动版本较低，单独下载驱动安装后正常。工作负载中未声明需要gpu资源。建议方案节点安装了gpu-beta（gpu-device-plugin）插件后，会自动安装nvidia-s

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
GPU插件关键参数检查异常处理 - 云容器引擎 CCE

GPU插件关键参数检查异常处理检查项内容检查CCE GPU插件中部分配置是否被侵入式修改，被侵入式修改的插件可能导致升级失败。解决方案使用kubectl连接集群。执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
设置性能管理配置 - 云容器引擎 CCE

您可以在APM上通过拓扑、调用链等进行应用性能优化，详细操作请参考应用拓扑。修改性能管理配置登录CCE控制台。单击集群名称进入集群，在左侧选择“工作负载”，单击工作负载名称。在“性能管理配置”页签中，单击右下角“编辑”修改性能管理配置参数。参数说明详情请参见4。父主题：

帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 配置工作负载
设置节点亲和调度（nodeAffinity） - 云容器引擎 CCE

某些节点支持使用GPU算力，则可以使用节点亲和调度，确保高性能计算的Pod最终运行在GPU节点上。配置节点亲和调度策略您可以通过不同的方式配置节点亲和性调度策略，将Pod调度到满足条件的节点。通过控制台配置通过YAML配置本文示例中，集群内已创建GPU节点，并设置标签为

 帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 调度工作负载
GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

GPU/NPU Pod重建风险检查异常处理检查项内容检查当前集群升级重启kubelet时，节点上运行的GPU/NPU业务容器是否可能发生重建，造成业务影响。解决方案请确保在业务影响可控的前提下（如业务低峰期）进行集群升级，以消减业务容器重建带来的影响；如需帮助，请您提交工单联系运维人员获取支持。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
异构资源配置 - 云容器引擎 CCE

异构资源配置 GPU配置 GPU虚拟化：CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高

 帮助中心 > 云容器引擎 CCE > 用户指南 > 配置中心
Ubuntu内核与GPU驱动兼容性提醒 - 云容器引擎 CCE

Ubuntu内核与GPU驱动兼容性提醒检查项内容检查到集群中同时使用GPU插件和Ubuntu节点，提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时，GPU插件必须使用535.161.08及以上的驱动版本。解决方案您在升级后新创

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查

总条数： 336

上一页
1
2
3
4
5
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

高性能调度 - 云容器引擎 CCE

GPU虚拟化 - 云容器引擎 CCE

GPU节点驱动版本 - 云容器引擎 CCE

GPU插件检查异常处理 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

调度概述 - 云容器引擎 CCE

什么是云容器引擎 - 云容器引擎 CCE

GPU节点使用nvidia驱动启动容器排查思路 - 云容器引擎 CCE

如何配置Pod使用GPU节点的加速能力？ - 云容器引擎 CCE

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

Volcano调度概述 - 云容器引擎 CCE

根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

GPU插件关键参数检查异常处理 - 云容器引擎 CCE

设置性能管理配置 - 云容器引擎 CCE

设置节点亲和调度（nodeAffinity） - 云容器引擎 CCE

GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

异构资源配置 - 云容器引擎 CCE

Ubuntu内核与GPU驱动兼容性提醒 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线