搜索_华为云

已找到以下 10000 条记录

GPU监控指标说明 - 云容器引擎 CCE

图形处理器频率 cce_gpu_video_clock Gauge MHz GPU卡 GPU视频处理器频率物理状态数据 cce_gpu_temperature Gauge ℃ GPU卡 GPU温度 cce_gpu_power_usage Gauge Milliwatt（毫瓦） GPU

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU调度 - 云容器引擎 CCE
GPU调度 - 云容器引擎 CCE

GPU调度 GPU节点驱动版本使用Kubernetes默认GPU调度 GPU虚拟化监控GPU资源指标 CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
选择GPU节点驱动版本 - 云容器引擎 CCE

图1 Nvidia驱动与CUDA Toolkit版本的配套关系 CUDA Toolkit和驱动的版本兼容性列表在选择Nvidia驱动时，需要保证驱动版本兼容CUDA Toolkit版本，官方提供配套关系如下表。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

图26 CUDA安装成功父主题：管理GPU加速型ECS的GPU驱动

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理GPU加速型ECS的GPU驱动
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

指标说明图1 GPU资源指标表1 GPU图表说明图表名称单位说明集群-显存使用率百分比集群的显存使用率计算公式：集群内容器显存使用总量/集群内显存总量集群-算力使用率百分比集群的算力使用率计算公式：集群内容器算力使用总量/集群内算力总量节点-显存使用量

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU虚拟化：UCS On Premises GPU采用xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
日志提示Compile graph failed - AI开发平台ModelArts

日志提示Compile graph failed 问题现象日志提示：Compile graph failed。图1 报错提示原因分析模型转换时未指定Ascend后端。处理方法需要在模型转换阶段指定“--device=Ascend”。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU故障处理前提条件如需将GPU事件同步上报至AOM，集群中需安装云原生日志采集插件，您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件当GPU显卡出现异常时，系统会将出现问题的GPU设备进行隔离，详细事件如表1所示。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU函数概述 - 函数工作流 FunctionGraph

、图形图像加速等加速工作负载。

帮助中心 > 函数工作流 FunctionGraph > 用户指南 > 创建函数 > 创建GPU函数
GPU设备显示异常 - 弹性云服务器 ECS

图1 系统日志执行以下命令，开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令，打开并编辑“/etc/rc.local”文件。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

通过节点池升级节点的GPU驱动版本如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配，您需要升级节点的驱动版本才可以正常使用GPU节点。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
创建GPU应用 - 华为云UCS
创建GPU应用 - 华为云UCS

GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。指定nvidia.com/gpu后，在调度时不会将负载调度到没有GPU的节点。如果缺乏GPU资源，会报类似如下的Kubernetes事件。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
GPU驱动不可用 - 弹性云服务器 ECS

图1 GPU驱动不可用可能原因系统内核进行了升级，导致在新内核上，GPU驱动不可用。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
监控GPU资源 - 华为云UCS
监控GPU资源 - 华为云UCS

选择“仪表盘”，在“集群视图”旁单击“切换视图”，切换为“GPU视图/XGPU视图”。图1 仪表盘查看GPU/xGPU视图。父主题： GPU调度

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
训练作业找不到GPU - AI开发平台ModelArts

GPU。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
准备GPU资源 - 华为云UCS
准备GPU资源 - 华为云UCS

图1 为虚拟化节点打标签步骤二：安装插件如果您的集群中已安装符合基础规划的插件，您可以跳过此步骤。更改驱动版本后，需要重启节点才能生效。重启节点前需要排空节点中的Pod，在进行升级重启的操作。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
GPU驱动异常怎么办？ - 弹性云服务器 ECS

方法2：查询云服务器安装的驱动版本：whereis nvidia 图1 查询安装的驱动版本根据查询的驱动版本从NVIDIA官网下载驱动包（此处重新下载驱动包是为了执行卸载动作，且后续重新安装驱动时需要此安装包）。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

在“GPU配置”中找到“节点池配置”，并选择新增的目标节点池。参考准备GPU虚拟化资源，选择满足GPU虚拟化要求的驱动，并开启支持GPU虚拟化。图1 异构资源配置单击“确认配置”进行保存。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
GPU调度 - 华为云UCS
GPU调度 - 华为云UCS

GPU调度 GPU调度概述准备GPU资源创建GPU应用监控GPU资源父主题：管理本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU监控指标说明 - 云容器引擎 CCE

GPU调度 - 云容器引擎 CCE

选择GPU节点驱动版本 - 云容器引擎 CCE

手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

GPU视图 - 云容器引擎 CCE

GPU调度概述 - 华为云UCS

日志提示Compile graph failed - AI开发平台ModelArts

GPU故障处理 - 云容器引擎 CCE

GPU函数概述 - 函数工作流 FunctionGraph

GPU设备显示异常 - 弹性云服务器 ECS

通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE

创建GPU应用 - 华为云UCS

GPU驱动不可用 - 弹性云服务器 ECS

监控GPU资源 - 华为云UCS

训练作业找不到GPU - AI开发平台ModelArts

准备GPU资源 - 华为云UCS

GPU驱动异常怎么办？ - 弹性云服务器 ECS

GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

常见问题 - AI开发平台ModelArts

GPU调度 - 华为云UCS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线