搜索_华为云

GPU负载 - 云容器实例 CCI
GPU负载 - 云容器实例 CCI

GPU负载使用Tensorflow训练神经网络使用Nvidia-smi工具

 帮助中心 > 云容器实例 CCI > 最佳实践
兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

兼容Kubernetes默认GPU调度模式开启GPU虚拟化后，默认该GPU节点不再支持使用Kubernetes默认GPU调度模式的工作负载，即不再支持使用nvidia.com/gpu资源的工作负载。如果您在集群中已使用nvidia.com/gpu资源的工作负载，可在gpu-device-p

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
GPU虚拟化概述 - 云容器引擎 CCE

GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术，能够动态对GPU设备显存与算力进行划分，单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说，虚拟化的方案更加灵活，最大程度保证业务稳定的前提下，可以完全由用户自己定义使用的GPU量，提高GPU利用率。

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU虚拟化
选择GPU节点驱动版本 - 云容器引擎 CCE

选择GPU节点驱动版本使用GPU加速型云服务器时，需要安装正确的Nvidia基础设施软件，才可以使用GPU实现计算加速功能。在使用GPU前，您需要根据GPU型号，选择兼容配套软件包并安装。本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。如何选择GPU节点驱动版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
监控GPU资源指标 - 云容器引擎 CCE

GPU卡 GPU时钟频率 cce_gpu_memory_clock GPU卡 GPU显存频率 cce_gpu_graphics_clock GPU卡 GPU图形处理器频率 cce_gpu_video_clock GPU卡 GPU视频处理器频率物理状态数据 cce_gpu_temperature

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。D

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

本节操作介绍GPU云服务器安装Tesla驱动及CUDA工具包的操作步骤。当前已支持使用自动化脚本安装GPU驱动，建议优先使用自动安装方式，脚本获取以及安装指导请参考（推荐）自动安装GPU加速型ECS的GPU驱动（Linux）和（推荐）自动安装GPU加速型ECS的GPU驱动（Windows）。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理GPU加速型ECS的GPU驱动
基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型 - CodeArts IDE Online

基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型概要准备工作导入和预处理训练数据集创建和训练模型使用模型

 帮助中心 > CodeArts IDE Online > 最佳实践
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

昇腾规格规格名称描述 Ascend 1*ascend-snt9b|ARM 24核 192GB Snt9b单卡规格，配搭ARM处理器，适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像，其中包含了最新商用版驱动、昇腾软件开发库，迁移工具链等。预置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
上报高精度日志接口参考 - 云日志服务 LTS

上报高精度日志接口参考功能介绍该接口用于主机上报租户日志给LTS。接入点IP可在LTS控制台安装ICAgent的安装命令中获取，端口为8102，调用时使用该参数请参见请求示例。每次上报的时候，每条日志都必须带一个纳秒级的时间戳。在LTS界面查看日志的时候，会按照时间戳

 帮助中心 > 云日志服务 LTS > 用户指南 > 日志接入 > 使用API接入LTS
GPU驱动不可用 - 弹性云服务器 ECS

方法一：重新启动，选择安装GPU驱动时的内核版本，即可使用GPU驱动。在云服务器操作列下单击“远程登录 > 立即登录”。单击远程登录操作面板上方的“发送CtrlAltDel”按钮，重启虚拟机。然后快速刷新页面，按上下键，阻止系统继续启动，选择安装GPU驱动时的内核版本进入系统

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU调度概述工作负载支持使用节点GPU资源，GPU资源使用可以分为如下两种模式： GPU静态分配（共享/独享）：按比例给Pod分配GPU显卡资源，支持独享（分配单张/多张显卡）和共享（部分显卡）方式。 GPU虚拟化：UCS On Premises GPU采用xGPU虚拟化技术

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

" 迁移后应用出图效果相比GPU无法对齐怎么办？扩散模型在噪音和随机数上的生成，本身就有一定的随机性，GPU和NPU（Ascend）硬件由于存在一定细小的差别，很难确保完全一致，较难达成生成图片100%匹配，建议通过盲测的方式对效果进行验证。模型精度有问题怎么办？首先考虑通

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
迁移效果校验 - AI开发平台ModelArts

pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite pipeline输出的结果图片进行对比，在这里保证输入图片及文本提示词一致。如果差异较为明显可以进行模型精度调优。确认性能是否满足要求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
推理业务迁移评估表 - AI开发平台ModelArts

例如：需要动态Shape，需要动态Shape的模型有ResNet-50、YOLOv5。 - 参数类型（FP32/FP16） FP32还是FP16混合，判断精度调优难度。例如：ResNet-50、YOLOv5模型使用FP16。BertLarge使用FP32。 - 模型变更频率模型变更场景如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
概要 - CodeArts IDE Online
概要 - CodeArts IDE Online

型完成简单的图像分类。父主题：基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

 帮助中心 > CodeArts IDE Online > 最佳实践 > 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

在“GPU配置”中找到“节点池配置”，并选择新增的目标节点池。参考准备GPU虚拟化资源，选择满足GPU虚拟化要求的驱动，并开启支持GPU虚拟化。图1 异构资源配置单击“确认配置”进行保存。步骤三：创建GPU虚拟化负载并扩容参考使用GPU虚拟化章节，创建使用GPU虚拟化

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU故障处理前提条件如需将GPU事件同步上报至AOM，集群中需安装云原生日志采集插件，您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件当GPU显卡出现异常时，系统会将出现问题的GPU设备进行隔离，详细事件如表1所示。表1 GPU插件隔离事件事件原因详细信息

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU设备显示异常 - 弹性云服务器 ECS

是，该驱动版本与镜像可能存在兼容性问题，建议更换驱动版本，操作指导，请参考安装GPU驱动。否，请执行下一步。请尝试重启云服务器，再执行nvidia-smi查看GPU使用情况，确认是否正常。如果问题依然存在，请联系客服。父主题： GPU驱动故障

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
GPU实例故障处理流程 - 弹性云服务器 ECS

GPU实例故障处理流程 GPU实例故障处理流程如图1所示，对应的操作方法如下： CES监控事件通知：配置GPU的CES监控后会产生故障事件通知。故障信息收集：可使用GPU故障信息收集脚本一键收集，也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表：根据错误信息在故障分类列表中识别故障类型。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断

总条数： 6010

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU负载 - 云容器实例 CCI

兼容Kubernetes默认GPU调度模式 - 云容器引擎 CCE

GPU虚拟化概述 - 云容器引擎 CCE

选择GPU节点驱动版本 - 云容器引擎 CCE

监控GPU资源指标 - 云容器引擎 CCE

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型 - CodeArts IDE Online

环境准备 - AI开发平台ModelArts

上报高精度日志接口参考 - 云日志服务 LTS

GPU驱动不可用 - 弹性云服务器 ECS

GPU调度概述 - 华为云UCS

常见问题 - AI开发平台ModelArts

迁移效果校验 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

概要 - CodeArts IDE Online

GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

GPU设备显示异常 - 弹性云服务器 ECS

GPU实例故障处理流程 - 弹性云服务器 ECS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线