搜索_华为云

GPU相关问题 - AI开发平台ModelArts

GPU相关问题日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

ModelArts开发环境 ModelArts作为华为云上的AI开发平台，提供交互式云上开发环境，包含标准化昇腾算力资源和完整的迁移工具链，帮助用户完成昇腾迁移的调测过程，进一步可在平台上将迁移的模型一键部署成为在线服务向外提供推理服务，或者运行到自己的运行环境中。 MindSpore Lite 华为自

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
AI套件（NVIDIA GPU） - AI开发平台ModelArts

AI套件（NVIDIA GPU）插件简介 AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。约束与限制创建专属资源池时，仅实例规格类型选择“GPU”时自动安装。验证插件插件安装完成后，在GPU节点及调度了GPU资源的容

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > ModelArts Standard资源管理 > 管理Standard专属资源池插件
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

单机单卡：小数据量（1G训练数据）、低算力场景（1卡Vnt1），存储方案推荐使用“OBS的并行文件系统（存放数据和代码）”。单机多卡：中等数据量（50G左右训练数据）、中等算力场景（8卡Vnt1），存储方案推荐使用“SFS（存放数据和代码）”。多机多卡：大数据量（1T训练数据）、高算力场景（4台8卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导简介昇腾迁移快速入门案例迁移评估环境准备模型适配精度校验性能调优迁移过程使用工具概览常见问题推理业务迁移评估表父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
训练作业找不到GPU - AI开发平台ModelArts

到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GP

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
基于AIGC模型的GPU推理业务迁移至昇腾指导 - AI开发平台ModelArts

基于AIGC模型的GPU推理业务迁移至昇腾指导场景介绍迁移环境准备 pipeline应用准备应用迁移迁移效果校验模型精度调优性能调优常见问题父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
GPU A系列裸金属服务器没有任务但GPU被占用如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器没有任务但GPU被占用如何解决问题现象服务器没有任务，但GPU显示被占用。截图示例如下：图1 显卡运行状态处理方法 nvidia-smi -pm 1 父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU训练业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导训练业务迁移到昇腾设备场景介绍训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优训练网络迁移总结父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
AI套件（NVIDIA GPU） - AI开发平台ModelArts

AI套件（NVIDIA GPU）插件简介 AI套件（NVIDIA GPU）插件是支持在容器中使用GPU显卡的设备管理插件，集群中使用GPU节点时必须安装本插件。约束与限制创建Lite Cluster资源池时，仅实例规格类型选择“GPU”时自动安装。验证插件插件安装完成后，在GPU节点及调

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster插件管理
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

模型迁移主要指将开源社区中实现过的模型或客户自研模型迁移到昇腾AI处理器上，需要保证模型已经在CPU/GPU上运行成功。迁移到昇腾AI处理器的主要流程如下图所示。图1 迁移流程父主题： GPU训练业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
精度问题概述 - AI开发平台ModelArts

算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括： Loss曲线与CPU/GPU差异不符合预期。验证准确度与CPU/GPU差异不符合预期。在迁移到NPU环境下训练发现以上问题时，说明精度

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

wikipedia、diffusers github、Stable Diffusion with diffusers。推理业务迁移到昇腾的通用流程，可参考GPU推理业务迁移至昇腾的通用指导。由于Huggingface网站的限制，访问Stable Diffusion链接时需使用代理服务器，否则可能无法访问网站。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

2个推理模型使用TensorRT框架，5个使用Triton框架。通过stable-diffusion的WebUI提供AIGC推理服务。 - GPU卡的类型 Vnt1/Ant1/Ant03/Tnt004等。例如： 20卡Ant1，运行Bert Large推理。 10卡Tnt004运行YOLOv5。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
训练网络迁移总结 - AI开发平台ModelArts

训练网络迁移总结确保算法在GPU训练时，持续稳定可收敛。避免在迁移过程中排查可能的算法问题，并且要有好的对比标杆。如果是NPU上全新开发的网络，请参考PyTorch迁移精度调优排查溢出和精度问题。理解GPU和NPU的构造以及运行的差别，有助于在迁移过程中分析问题并发挥NPU的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

模型适配基于MindSpore Lite的模型转换动态shape 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark精度测试，具体使用方式参考Tailor指导文档。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

DevServer 开通裸金属服务器资源请见DevServer资源开通，在裸金属服务器上搭建迁移环境请见裸金属服务器环境配置指导。父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
迁移环境准备 - AI开发平台ModelArts

迁移环境准备迁移环境准备有以下两种方式：表1 方式说明序号名称说明方式一 ModelArts Notebook 该环境为在线调试环境，主要面向演示、体验和快速原型调试场景。优点：可快速、低成本地搭建环境，使用标准化容器镜像，官方Notebook示例可直接运行。缺点

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导

总条数： 786

上一页
1
2
3
4
5
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

0/200

提交反馈取消