搜索_华为云

如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？问题现象当集群中存在GPU/NPU节点和普通节点混合使用的场景时，普通工作负载也可以调度到GPU/NPU节点上，可能出现GPU/NPU资源未充分利用的情况。问题原因由于GPU/NPU节点同样提供CPU、内存资源，在一般

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
高性能调度 - 云容器引擎 CCE
高性能调度 - 云容器引擎 CCE

置。通过实现Scheduler提供的接口也可以方便灵活地进行定制化开发。应用场景4：高精度资源调度 Volcano 在支持AI，大数据等作业的时候提供了高精度的资源调度策略，例如在深度学习场景下计算效率非常重要。以TensorFlow计算为例，配置“ps”和“worker”之间

 帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

name: 'cce-gpu' cce-gpu 结合CCE的GPU插件支持GPU资源分配，支持小数GPU配置。说明： 1.10.5及以上版本的插件不再支持该插件，请使用xgpu插件。小数GPU配置的前提条件为CCE集群GPU节点为共享模式，检查集群是否关闭GPU共享，请参见修改C

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件
GPU插件检查异常处理 - 云容器引擎 CCE

GPU插件检查异常处理检查项内容检查到本次升级涉及GPU插件，可能影响新建GPU节点时GPU驱动的安装。解决方案由于当前GPU插件的驱动配置由您自行配置，需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件，并配置当前GPU驱动后，测试创建节点是否正常使用。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件介绍 CCE AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。字段说明表1 参数描述参数是否必选参数类型描述 basic 是 object 插件基础配置参数。

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

云容器引擎CCE集群和gpu-beta插件推荐安装的NVIDIA GPU驱动，尚未出现在NVIDIA官方信息中。如果将来有新的官方信息变化，我们将及时跟进帮助您升级修复。如果您是自行选择安装的NVIDIA GPU驱动或更新过节点上的GPU驱动，请参考上图确认您安装的GPU驱动是否受该漏洞影响。

帮助中心 > 云容器引擎 CCE > 服务公告 > 漏洞公告
使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标应用场景集群中包含GPU节点时，需要了解GPU应用使用节点GPU资源的情况，例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，或者根据GPU指标设置告警规则。本文基于开源Prometheus和DCGM

帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

集群有4块GPU卡，TFJob1和TFJob2作业各自有4个Worker，TFJob1和TFJob2各自分配到2个GPU。但是TFJob1和TFJob2均需要4块GPU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源，这种死锁情况造成了GPU资源的浪费。亲和调度问题

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
GPU节点使用nvidia驱动启动容器排查思路 - 云容器引擎 CCE

GPU节点使用nvidia驱动启动容器排查思路集群中的节点是否有资源调度失败的事件？问题现象：节点运行正常且有GPU资源，但报如下失败信息： 0/9 nodes are aviable: 9 insufficient nvida.com/gpu 排查思路：确认节点标签是否已经打上nvidia资源。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

在GPU服务容器中发现一些新增的文件core.*，在以前的部署中没有出现过。问题定位 GPU插件的驱动版本较低，单独下载驱动安装后正常。工作负载中未声明需要gpu资源。建议方案节点安装了gpu-beta（gpu-device-plugin）插件后，会自动安装nvidia-s

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
调度策略 - 云容器引擎 CCE
调度策略 - 云容器引擎 CCE

如何查看Pod是否使用CPU绑核？节点关机后Pod不重新调度如何避免非GPU/NPU负载调度到GPU/NPU节点？为什么Pod调度不到某个节点上？修改kubelet参数导致已驱逐的Pod被重新调度根据GPU/NPU卡信息定位使用该卡的Pod 父主题：工作负载

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载
GPU插件关键参数检查异常处理 - 云容器引擎 CCE

GPU插件关键参数检查异常处理检查项内容检查CCE GPU插件中部分配置是否被侵入式修改，被侵入式修改的插件可能导致升级失败。解决方案使用kubectl连接集群。执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
Ubuntu内核与GPU驱动兼容性提醒 - 云容器引擎 CCE

Ubuntu内核与GPU驱动兼容性提醒检查项内容检查到集群中同时使用GPU插件和Ubuntu节点，提醒客户存在可能的兼容性问题。当Ubuntu内核版本在5.15.0-113-generic上时，GPU插件必须使用535.161.08及以上的驱动版本。解决方案您在升级后新创

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

适配OS Ubuntu22.04 GPU驱动目录自动挂载优化 1.2.24 v1.19 v1.21 v1.23 v1.25 节点池支持配置GPU驱动版本支持GPU指标采集 1.2.20 v1.19 v1.21 v1.23 v1.25 设置插件别名为gpu 1.2.17 v1.15 v1

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

登录CCE控制台，在左侧导航栏中选择“节点管理”，切换至“节点”页签，查看GPU节点的IP。本文中以192.168.0.106为例。登录GPU节点，通过以下命令查看GPU卡的信息。 nvidia-smi 可以看到该机器上存在1张卡GPU0。本文以GPU0为例，定位使用这张卡的Pod。根据节点IP（即192

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布应用服务网格（Application Service Mesh，简称ASM）是基于开源Istio推出的服务网格平台，它深度、无缝对接了企业级Kubernetes集群服务云容器引擎（CCE），在易用性、可靠性、可视化等方面进行了一系列增强，可为客户提供开箱即用的上手体验。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

GPU/NPU Pod重建风险检查异常处理检查项内容检查当前集群升级重启kubelet时，节点上运行的GPU/NPU业务容器是否可能发生重建，造成业务影响。解决方案请确保在业务影响可控的前提下（如业务低峰期）进行集群升级，以消减业务容器重建带来的影响；如需帮助，请您提交工单联系运维人员获取支持。

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
资源准备 - 云容器引擎 CCE
资源准备 - 云容器引擎 CCE

资源准备在集群中添加GPU节点登录CCE控制台，单击已创建的集群，进入集群控制台。安装GPU插件。在左侧导航栏中选择“插件管理”，在右侧找到gpu-beta（或gpu-device-plugin），单击“安装”。在安装插件页面，设置插件关键参数。 Nvidia驱动：填写

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Caffe
基础配置 - 云容器引擎 CCE
基础配置 - 云容器引擎 CCE

Standard/CCE Turbo 集群显示名，用于在 CCE 界面显示，该名称创建后可修改配置建议：按照集群资源归属（如一般集群还是GPU集群）、应用场景（测试集群还是生产集群）等维度命名，方便区分和管理计费模式包年包月是预付费模式，按订单的购买周期计费，适用于可预估资源使用周期的场景，价格比按需计费模式更优惠。

帮助中心 > 云容器引擎 CCE > 配置参考 > 集群

总条数： 172

上一页
1
2
3
4
5
...
9
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

高性能调度 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

GPU插件检查异常处理 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

NVIDIA GPU驱动漏洞公告（CVE-2021-1056） - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

GPU节点使用nvidia驱动启动容器排查思路 - 云容器引擎 CCE

工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

调度策略 - 云容器引擎 CCE

GPU插件关键参数检查异常处理 - 云容器引擎 CCE

Ubuntu内核与GPU驱动兼容性提醒 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

根据GPU/NPU卡信息定位使用该卡的Pod - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

GPU/NPU Pod重建风险检查异常处理 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

资源准备 - 云容器引擎 CCE

基础配置 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线