搜索_华为云

GPU相关问题 - AI开发平台ModelArts

GPU相关问题日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架： DeepSpeed和Accelerate都是针对深度学习训练加速的工具，但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架，主要针对大规模模型和大规模数据集的训练。D

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

昇腾迁移方案的基础上，提供了即开即用的云上集成开发环境，包含迁移所需要的算力资源和工具链，以及具体的Notebook代码运行示例和最佳实践，并对于实际的操作原理和迁移流程进行说明，包含迁移后的精度和性能验证、调试方法说明。核心概念推理业务昇腾迁移整体流程及工具链图1 推理业务昇腾迁移整体路径

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导简介昇腾迁移快速入门案例迁移评估环境准备模型适配精度校验性能调优迁移过程使用工具概览常见问题推理业务迁移评估表父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
GPU训练业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导训练业务迁移到昇腾设备场景介绍训练迁移快速入门案例 PyTorch迁移精度调优 PyTorch迁移性能调优训练网络迁移总结父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

1*ascend-snt9b|ARM 24核 192GB Snt9b单卡规格，配搭ARM处理器，适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像，其中包含了最新商用版驱动、昇腾软件开发库，迁移工具链等。预置镜像可以做到即开即用，用户也可以基于预置镜像构建自定义环境内容。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
精度问题概述 - AI开发平台ModelArts

使用场景和使用步骤，方便用户自行或在支持下排查可能的数值计算精度问题。当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时，可能出现以下不同现象的模型精度问题。一般包括： Loss曲线与CPU/GPU差异不符合预期。验证准确度与CPU/GPU差异不符合预期。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
基于AIGC模型的GPU推理业务迁移至昇腾指导 - AI开发平台ModelArts

基于AIGC模型的GPU推理业务迁移至昇腾指导场景介绍迁移环境准备 pipeline应用准备应用迁移迁移效果校验模型精度调优性能调优常见问题父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
训练迁移快速入门案例 - AI开发平台ModelArts

导的讨论范围中。已完成迁移环境准备，且代码、预训练模型、数据等训练必需内容已经上传到环境中。约束和限制安装插件后，大部分能力能够对标在GPU上的使用，但并不是所有行为和GPU上是一一对应的。例如在torch_npu下，当PyTorch版本低于2.1.0时，一个进程只能操作一

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

绝大多数情况下，昇腾芯片推理性能相比于CPU会好很多，但是也可能会遇到和CPU推理性能并无太大差别甚至出现劣化的情况。造成这种情况的原因可能有如下几种：模型中存在大量的类似于Pad或者Strided_Slice等算子，其在CPU和Ascend上的实现方法存在差异（硬件结构不同），后者在运算此类算子时涉及到数组的重排，性能较差；

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

源的使用额度和时长。在欠费时，您需要及时（15天之内）续费以避免您的文件系统资源被清空。购买的SFS可以用于存储数据和代码。如何购买弹性文件服务？容器镜像服务SWR 容器镜像服务分为企业版和共享版。共享版计费项包括存储空间和流量费用，目前均免费提供给您。企业版支持按需计费模式。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
精度调优前准备工作 - AI开发平台ModelArts

thon三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。此外，问题定位主要基于GPU环境和NPU环境上运行的过程数据做对比，所以需要分别准备GPU和NPU训练环境，大部分场景需要规模相同的训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
训练作业找不到GPU - AI开发平台ModelArts

到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GP

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
迁移环境准备 - AI开发平台ModelArts

进行推理。方式二 ModelArts Lite DevServer 该环境为裸机开发环境，主要面向深度定制化开发场景。优点：支持深度自定义环境安装，可以方便的替换驱动、固件和上层开发包，具有root权限，结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。缺点：资源

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
迁移过程使用工具概览 - AI开发平台ModelArts

迁移过程使用工具概览基础的开发工具在迁移的预置镜像和开发环境中都已经进行预置，用户原则上不需要重新安装和下载，如果预置的版本不满足要求，用户可以执行下载和安装与覆盖操作。模型自动转换评估工具Tailor 为了简化用户使用，ModelArts提供了Tailor工具，将模型转换、

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

当前推理业务的操作系统及版本，如：Ubuntu 22.04。是否使用容器化运行业务，以及容器中OS版本，HostOS中是否有业务软件以及HostOS的类型和版本。需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本当前引擎（TF/PT/LibTorch），是否接受切换MindSpore。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
推理业务迁移评估表 - AI开发平台ModelArts

当前推理业务的操作系统及版本，如：Ubuntu 22.04。是否使用容器化运行业务，以及容器中OS版本，HostOS中是否有业务软件以及HostOS的类型和版本。需要评估是否愿意迁移到华为云的通用OS。 - AI引擎及版本当前引擎（TF/PT/LibTorch），是否接受切换MindSpore。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

[acl_init_options] ge.op_compiler_cache_mode="force" 迁移后应用出图效果相比GPU无法对齐怎么办？扩散模型在噪音和随机数上的生成，本身就有一定的随机性，GPU和NPU（Ascend）硬件由于存在一定细小的差别，很难确保完全一致，较难达成生成图片100%匹配，建议通过盲测的方式对效果进行验证。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

MindSpore Lite问题定位指南模型转换报错如何查看日志和定位？日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Lite生成的图像和onnx模型的输出结果有明显的差异，因此需要对MindSpore Lite pipeline进行精度诊断。图1 结果对比在MindSpore Lite 2.0.0版本中，Stable Diffusion的五个模型的精度都能够保证一致性，但是在最新的2.1.0版本中，会

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优

总条数： 618

上一页
1
2
3
4
5
...
31
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU相关问题 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

GPU推理业务迁移至昇腾的通用指导 - AI开发平台ModelArts

GPU训练业务迁移至昇腾的通用指导 - AI开发平台ModelArts

环境准备 - AI开发平台ModelArts

精度问题概述 - AI开发平台ModelArts

基于AIGC模型的GPU推理业务迁移至昇腾指导 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

迁移环境准备 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线