搜索_华为云

基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型 - CodeArts IDE Online

基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型概要准备工作导入和预处理训练数据集创建和训练模型使用模型

 帮助中心 > CodeArts IDE Online > 最佳实践
GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导简介昇腾迁移快速入门案例迁移评估环境准备模型适配精度校验性能调优迁移过程使用工具概览常见问题推理业务迁移评估表父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
监控GPU资源指标 - 云容器引擎 CCE

监控了哪些目标。图2 查看监控目标监控GPU指标创建一个使用GPU的工作负载，等工作负载正常运行后，访问Prometheus，在“Graph”页面中，查看GPU指标。关于GPU指标详情请参见GPU监控指标说明。图3 查看GPU监控指标访问Grafana Prometh

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

例如：需要动态Shape，需要动态Shape的模型有ResNet-50、YOLOv5。 - 参数类型（FP32/FP16） FP32还是FP16混合，判断精度调优难度。例如：ResNet-50、YOLOv5模型使用FP16。BertLarge使用FP32。 - 模型变更频率模型变更场景如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
概要 - CodeArts IDE Online
概要 - CodeArts IDE Online

型完成简单的图像分类。父主题：基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

 帮助中心 > CodeArts IDE Online > 最佳实践 > 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

性能调优性能测试 benchmark工具也可用于性能测试，其主要的测试指标为模型单次前向推理的耗时。在性能测试任务中，与精度测试不同，并不需要用户指定对应的输入（inDataFile）和输出的标杆数据（benchmarkDataFile），benchmark工具会随机生成一个输

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

本节操作介绍GPU云服务器安装Tesla驱动及CUDA工具包的操作步骤。当前已支持使用自动化脚本安装GPU驱动，建议优先使用自动安装方式，脚本获取以及安装指导请参考（推荐）自动安装GPU加速型ECS的GPU驱动（Linux）和（推荐）自动安装GPU加速型ECS的GPU驱动（Windows）。

帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例 > 管理GPU加速型ECS的GPU驱动
选择GPU节点驱动版本 - 云容器引擎 CCE

选择GPU节点驱动版本使用GPU加速型云服务器时，需要安装正确的Nvidia基础设施软件，才可以使用GPU实现计算加速功能。在使用GPU前，您需要根据GPU型号，选择兼容配套软件包并安装。本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。如何选择GPU节点驱动版本

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

丰富的GPU监控指标，功能特性如下： GPU行为监控 GPU配置管理 GPU Policy管理 GPU健康诊断 GPU级别统计和线程级别统计 NVSwitch配置和监控本文基于CCE云原生监控插件和DCGM Exporter实现丰富的GPU观测场景，常用指标请参见GPU监控指标

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。D

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

模型转换，包含模型转换、优化和量化等。应用集成。针对转换的模型运行时应用层适配。数据预处理。模型编排。模型裁剪。精度校验。精度对比误差统计工具。自动化精度对比工具。网络结构可视化工具。性能调优。性能测试。性能调优三板斧。性能分析与诊断。迁移测试报告。推理迁移验收表。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

合适的NVIDIA驱动版本。 GPU驱动支持列表当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。如果您需要安装最新版本的GPU驱动，请将您的GPU插件升级到最新版本。表1 GPU驱动支持列表 GPU型号支持集群类型机型规格操作系统 Huawei Cloud

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度 > GPU节点驱动版本
迁移效果校验 - AI开发平台ModelArts

pipeline的最终输出结果确认迁移效果。如果精度和性能都没有问题，则代表迁移完成。对比图片生成效果在CPU上推理onnx，将原始onnx和适配完成的MindSpore Lite pipeline输出的结果图片进行对比，在这里保证输入图片及文本提示词一致。如果差异较为明显可以进行模型精度调优。确认性能是否满足要求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
基于AIGC模型的GPU推理业务迁移至昇腾指导 - AI开发平台ModelArts

基于AIGC模型的GPU推理业务迁移至昇腾指导场景介绍迁移环境准备 pipeline应用准备应用迁移迁移效果校验模型精度调优性能调优常见问题父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
GPU调度 - 云容器引擎 CCE
GPU调度 - 云容器引擎 CCE

GPU调度 GPU节点驱动版本使用Kubernetes默认GPU调度 GPU虚拟化监控GPU资源指标 CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度
GPU调度概述 - 华为云UCS
GPU调度概述 - 华为云UCS

GPU调度概述工作负载支持使用节点GPU资源，GPU资源使用可以分为如下两种模式： GPU静态分配（共享/独享）：按比例给Pod分配GPU显卡资源，支持独享（分配单张/多张显卡）和共享（部分显卡）方式。 GPU虚拟化：UCS On Premises GPU采用xGPU虚拟化技术

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
msprobe API预检 - AI开发平台ModelArts

Tools工具链下精度调试部分的工具包，主要包括精度预检、溢出检测和精度比对等功能，目前适配PyTorch和MindSpore框架。这些子工具侧重不同的训练场景，可以定位模型训练中的精度问题。精度预检工具旨在计算单个API在整网计算中和标杆场景下的差异，对于无明确精度差异来源情况或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU故障处理前提条件如需将GPU事件同步上报至AOM，集群中需安装云原生日志采集插件，您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件当GPU显卡出现异常时，系统会将出现问题的GPU设备进行隔离，详细事件如表1所示。表1 GPU插件隔离事件事件原因详细信息

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

" 迁移后应用出图效果相比GPU无法对齐怎么办？扩散模型在噪音和随机数上的生成，本身就有一定的随机性，GPU和NPU（Ascend）硬件由于存在一定细小的差别，很难确保完全一致，较难达成生成图片100%匹配，建议通过盲测的方式对效果进行验证。模型精度有问题怎么办？首先考虑通

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
创建GPU应用 - 华为云UCS
创建GPU应用 - 华为云UCS

com/gpu 指定申请GPU的数量，支持申请设置为小于1的数量，比如 nvidia.com/gpu: 0.5，这样可以多个Pod共享使用GPU。GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。指定nvidia.com/gpu后，在调度时不会将负载调

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度

总条数： 6231

上一页
1
...
4
5
6
...
312
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型 - CodeArts IDE Online

GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

监控GPU资源指标 - 云容器引擎 CCE

迁移评估 - AI开发平台ModelArts

概要 - CodeArts IDE Online

性能调优 - AI开发平台ModelArts

手动安装GPU加速型ECS的Tesla驱动 - 弹性云服务器 ECS

选择GPU节点驱动版本 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）插件使用DCGM-Exporter监控GPU指标 - 云容器引擎 CCE

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE

迁移效果校验 - AI开发平台ModelArts

基于AIGC模型的GPU推理业务迁移至昇腾指导 - AI开发平台ModelArts

GPU调度 - 云容器引擎 CCE

GPU调度概述 - 华为云UCS

msprobe API预检 - AI开发平台ModelArts

GPU故障处理 - 云容器引擎 CCE

常见问题 - AI开发平台ModelArts

创建GPU应用 - 华为云UCS

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线