搜索_华为云

工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

工作负载异常：GPU节点部署服务报错问题现象在CCE集群的GPU节点上部署服务出现如下问题：容器无法查看显存。部署了7个GPU服务，有2个是能正常访问的，其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内在

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

com/gpu资源（即配置nvidia.com/gpu为小数，例如0.5）时将通过虚拟化GPU提供，实现GPU显存隔离，按照设定值的百分比为容器分配GPU显存（例如分配0.5×16GiB=8GiB的GPU显存，该数值需为128MiB的整数倍否则会自动向下取整）。配置nvidia.com/gpu为整数

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

力总量节点-显存使用量字节每个节点的显存使用量节点-算力使用率百分比每个节点的算力使用率计算公式：节点上容器算力使用总量/节点上算力总量节点-显存使用率百分比每个节点的显存使用率计算公式：节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量字节显卡上容器显存使用总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
使用GPU虚拟化 - 云容器引擎 CCE

配置工作负载信息。在“容器配置>基本信息”中设置xGPU配额：显存：显存值单位为MiB，需为正整数，且为128的倍数。若配置的显存超过单张GPU卡的显存，将会出现无法调度状况。算力：算力值单位为%，需为5的倍数，且最大不超过100。当显存设置为单张GPU卡的容量上限或算力设置为100%时，将会使用整张GPU卡。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

卡序号，观测GPU虚拟化的可用显存。比较步骤2和步骤3的可用显存。由于GPU厂商的驱动程序，本身就会占用一定量的物理显存，量级在300MB左右，这属于正常现象。例如Tesla T4配套510.47.03，驱动程序默认会占用280MiB；而该显存占用与厂商的驱动程序版本也有一定

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
XGPU视图 - 云容器引擎 CCE
XGPU视图 - 云容器引擎 CCE

每个节点的GPU虚拟化设备数量节点-XGPU设备显存分配量字节每个节点上的GPU虚拟化设备显存总量 GPU卡-XGPU设备显存使用率百分比每张GPU卡上的GPU虚拟化设备显存使用率计算公式：显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量 GPU卡-XGPU设备显存分配量字节每张GPU卡上的GPU虚拟化设备的显存总量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化的优势 CCE提供的GPU虚拟化功能优势如下：灵活：精细配置GPU算力占比及显存大小，算力分配粒度为5%GPU，显存分配粒度达MiB级别。隔离：支持显存和算力的严格隔离，支持单显存隔离，算力与显存同时隔离两类场景。兼容：业务无需重新编译，无需进行CUDA库替换，对业务无感。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件简介 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 容器调度与弹性插件
Volcano调度器 - 云容器引擎 CCE
Volcano调度器 - 云容器引擎 CCE

Volcano调度器插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台，它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失，其中包括gang-schedule的调度能力、计算任务队列管理、task-topology

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标应用场景集群中包含GPU节点时，需要了解GPU应用使用节点GPU资源的情况，例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，或者根据GPU指标设置告警规

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 监控
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU监控指标说明 - 云容器引擎 CCE

监控级别说明 xgpu_memory_total Gauge Byte GPU进程 GPU虚拟化显存总量。 xgpu_memory_used Gauge Byte GPU进程 GPU虚拟化显存使用量。 xgpu_core_percentage_total Gauge % GPU进程 GPU虚拟化算力总量。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
调度概述 - 云容器引擎 CCE
调度概述 - 云容器引擎 CCE

NPU调度可以指定Pod申请NPU的数量，为工作负载提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
节点规格说明 - 云容器引擎 CCE

125TFLOPS Tensor Core 深度学习加速 300GiB/s NVLINK 机器学习、深度学习、训练推理、科学计算、地震分析、计算金融学、渲染、多媒体编解码。 CCE Standard集群推理加速型 Pi2ne NVIDIA T4（GPU直通） 2560 8.1TFLOPS

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点
Volcano调度概述 - 云容器引擎 CCE

Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台，提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性，提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度
使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布应用服务网格（Application Service Mesh，简称ASM）是基于开源Istio推出的服务网格平台，它深度、无缝对接了企业级Kubernetes集群服务云容器引擎（CCE），在易用性、可靠性、可视化等方面进行了一系列增强，可为客户提供开箱即用的上手体验。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
监控GPU资源指标 - 云容器引擎 CCE

监控GPU资源指标通过Prometheus和Grafana，可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。本文将通过一个示例应用演示如何监控GPU资源指标，具体步骤如下：访问Prometheus （可选）为Prometheus绑定L

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
容器resource资源 - 云容器引擎 CCE

配置时limit和request配置相同 GPU虚拟化资源：显存参数名取值范围默认值是否允许修改作用范围 volcano.sh/gpu-mem.128Mi 1-16384间整数无允许 - 虚拟化GPU显存资源，若配置limit和request相同，可独立配置 GPU虚拟化资源：算力

 帮助中心 > 云容器引擎 CCE > 配置参考 > Pod
跨账号挂载对象存储 - 云容器引擎 CCE

/tmp/test01.txt 回显内容如下，说明Pod对自己创建的对象具有读写权限。 test 步骤四：清理资源完成该示例的学习后，您可以清理相关资源以避免产生结算费用。如果您打算学习其他示例，请等到完成这些示例后再进行清理。利用以下命令删除工作负载。 kubectl delete -f o

帮助中心 > 云容器引擎 CCE > 最佳实践 > 存储

总条数： 128

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

使用GPU虚拟化 - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

XGPU视图 - 云容器引擎 CCE

GPU虚拟化概述 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

Volcano调度器 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

使用dcgm-exporter监控GPU指标 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

GPU监控指标说明 - 云容器引擎 CCE

调度概述 - 云容器引擎 CCE

节点规格说明 - 云容器引擎 CCE

Volcano调度概述 - 云容器引擎 CCE

使用ASM实现灰度发布和蓝绿发布 - 云容器引擎 CCE

监控GPU资源指标 - 云容器引擎 CCE

容器resource资源 - 云容器引擎 CCE

跨账号挂载对象存储 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线