搜索_华为云

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

NCCL_DEBUG=INFO DEFAULT_ONE_GPU_BATCH_SIZE=32 BATCH_SIZE=$((${MA_NUM_GPUS:-8} * ${VC_WORKER_NUM:-1} * ${DEFAULT_ONE_GPU_BATCH_SIZE})) if [ ${VC_WORKER_HOSTS}

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
监控GPU资源 - 华为云UCS
监控GPU资源 - 华为云UCS

监控GPU资源本章介绍如何在UCS控制台界面查看GPU资源的全局监控指标。前提条件完成GPU资源准备。当前本地集群已创建GPU资源。当前本地集群开启了监控能力。 GPU监控登录UCS控制台，在左侧导航栏选择“容器智能分析”。选择对应的集群并开启监控，详细操作请参照集群开启监控。

帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群 > GPU调度
G系列弹性云服务器GPU驱动故障 - 弹性云服务器 ECS

G系列弹性云服务器GPU驱动故障问题描述在Windows系统的G系列弹性云服务器中，无法打开NVIDIA 控制面板，GPU驱动无法使用或GPU驱动显示异常。可能原因 GPU驱动状态异常。处理方法打开Windows设备管理器，在显示适配器中查看GPU驱动状态。 GPU驱动显示正常

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU驱动故障
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

数据预处理。模型编排。模型裁剪。精度校验。精度对比误差统计工具。自动化精度对比工具。网络结构可视化工具。性能调优。性能测试。性能调优三板斧。性能分析与诊断。迁移测试报告。推理迁移验收表。 ModelArts开发环境 ModelArts作为华为云上的AI开发平

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
GPU训练业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导训练业务迁移到昇腾设备场景介绍训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优训练网络迁移总结父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作使用ModelArts Standard的专属资源池训练时，需要完成以下准备工作。购买服务资源表1 购买服务资源服务使用说明参考文档弹性文件服务SFS 弹性文件服务默认为按需计费，即按购买的存储容量和

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用Msprobe工具分析偏差 - AI开发平台ModelArts

定为statistics表示使用统计量模式，该模式下针对整网训练API输入输出保存最大值、最小值、均值等统计量信息比对，落盘数据量较小。GPU和NPU环境依次进行数据Dump，正常执行结束标识如下图回显Exception: msprobe: exit after iteration

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
创建GPU函数 - 函数工作流 FunctionGraph

创建GPU函数 GPU函数概述自定义镜像方式创建GPU函数定制运行时方式创建GPU函数父主题：创建函数

 帮助中心 > 函数工作流 FunctionGraph > 用户指南 > 创建函数
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU调度 - 华为云UCS
GPU调度 - 华为云UCS

GPU调度 GPU调度概述准备GPU资源创建GPU应用监控GPU资源父主题：管理本地集群

 帮助中心 > 华为云UCS > 用户指南 > UCS集群 > 本地集群 > 管理本地集群
使用Tensorflow训练神经网络 - 云容器实例 CCI

采用容器化方式运行，并需要大量GPU、高性能网络和存储等硬件加速能力，并且都是任务型计算，需要快速申请大量资源，计算任务完成后快速释放。本文将演示在云容器实例中创建GPU类型的负载，以tensorflow的图像分类为示例，演示在容器中直接使用GPU训练一个简单的神经网络。优势

 帮助中心 > 云容器实例 CCI > 最佳实践 > GPU负载
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

main_worker(args.gpu, ngpus_per_node, args) def main_worker(gpu, ngpus_per_node, args): global best_acc1 args.gpu = gpu if args.gpu is not

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

install -r requirements.txt && /bin/sh run.sh 资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择所需GPU规格。计算节点个数：选择需要的节点个数。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
高性能调度 - 云容器引擎 CCE
高性能调度 - 云容器引擎 CCE

性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等能力。应用场景1：多类型作业混合部署随着各行各业的发展，涌现出越来越多的领域框架来支持业务的发展，这些框架都在相应的业务领域有着不可替代的作用，例如Spark，Tensorflow，Flink等。在业务复杂性能不断增加

 帮助中心 > 云容器引擎 CCE > 产品介绍 > 应用场景
自定义镜像方式创建GPU函数 - 函数工作流 FunctionGraph

PU”，配置GPU参数。表1 GPU参数说明参数名称说明 GPU卡型当前仅支持NVIDIA-T4。 GPU规格（GB）支持1~16GB。图1 启用GPU 父主题：创建GPU函数

 帮助中心 > 函数工作流 FunctionGraph > 用户指南 > 创建函数 > 创建GPU函数
基于AIGC模型的GPU推理业务迁移至昇腾指导 - AI开发平台ModelArts

基于AIGC模型的GPU推理业务迁移至昇腾指导场景介绍迁移环境准备 pipeline应用准备应用迁移迁移效果校验模型精度调优性能调优常见问题父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

例如：使用了C83版本。 - 性能指标与预期例1：模型：YOLOv5 运行环境：Vnt1 单卡性能指标：QPS 100/s （两进程）性能约束：单次请求最大可以接受时延需小于100ms 性能预期：QPS 130/s 例2：模型：OCR 运行环境：6348（单核48U超线程）性能指标：QPS

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导简介昇腾迁移快速入门案例迁移评估环境准备模型适配精度校验性能调优迁移过程使用工具概览常见问题推理业务迁移评估表父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
GPU实例故障分类列表 - 弹性云服务器 ECS

GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。表1 GPU实例故障分类列表是否可恢复故障故障类型相关文档可恢复故障，可按照相关文档自行恢复镜像配置问题如何处理Nouveau驱动未禁用导致的问题 ECC错误如何处理ECC ERROR：存在待隔离页问题内核升级问题

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
迁移过程使用工具概览 - AI开发平台ModelArts

同步指令插入等。性能分析工具 msprof命令行工具提供了采集通用命令以及AI任务运行性能数据、昇腾AI处理器系统数据、Host侧系统数据和采集和解析能力。面向推理的场景，可以对于模型的执行性能数据进行收集，可基于收集的性能数据进行性能分析。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导

总条数： 10000

上一页
1
...
4
5
6
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

监控GPU资源 - 华为云UCS

G系列弹性云服务器GPU驱动故障 - 弹性云服务器 ECS

简介 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

创建GPU函数 - 函数工作流 FunctionGraph

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

GPU调度 - 华为云UCS

使用Tensorflow训练神经网络 - 云容器实例 CCI

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

高性能调度 - 云容器引擎 CCE

自定义镜像方式创建GPU函数 - 函数工作流 FunctionGraph

基于AIGC模型的GPU推理业务迁移至昇腾指导 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU实例故障分类列表 - 弹性云服务器 ECS

迁移过程使用工具概览 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线