搜索_华为云

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

查看卡信息，执行以下命令。 npu-smi info kubernetes会根据config.yaml文件中配置的卡数分配资源给pod，如下图所示由于配置了1卡因此在容器中只会显示1卡，说明配置生效。图2 查看卡信息修改pod的卡数。由于本案例中为分布式训练，因此所需卡数修改为8卡。删除已创建的pod。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

在构建镜像的dockerfile文件中安装pip依赖包，例如安装Flask依赖包。 # 配置华为云的源，安装 python、python3-pip 和 Flask RUN cp -a /etc/apt/sources.list /etc/apt/sources.list.bak && \ sed -i "s@http://

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

7.8。 OFED版本 ≥ MLNX_OFED_LINUX-5.4-3.1.0.0。 CUDA版本需要参考专属资源池的GPU驱动版本，自主进行适配，GPU驱动版本可在专属资源池详情页面查看。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
Lite Cluster资源管理介绍 - AI开发平台ModelArts

整。升级Lite Cluster资源池驱动：当资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。监控Lite Cluster资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

通过命令查看nvidia-fabricmanager的版本，发现nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致。 dpkg -l | grep nvidia-fabricmanager 卸载并重新安装正确版本的nvidia-fabricmanager，验证CUDA成功。处理方法查看n

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

app.run(host="0.0.0.0", port=8080) 执行代码，执行后如下图所示，会部署一个在线服务，该容器即为服务端。 python test.py 图2 部署在线服务在XShell中新建一个终端，参考步骤5~7进入容器，该容器为客户端。执行以下命令验证自定义

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
SD3 Diffusers框架基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
查询模型runtime - AI开发平台ModelArts

[ "tf1.13-python3.6-cpu", "tf1.13-python3.6-gpu", "tf1.13-python3.7-cpu", "tf1.13-python3.7-gpu", "python3.6", "tf1.13-python3.7-aiflow-gpu"

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。处理方法如果超过最大递归深度，建议您在启动文件中增大递归调用深度，具体操作如下： import sys

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
精度调优前准备工作 - AI开发平台ModelArts

精度调优前准备工作在定位精度问题之前，首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境（GPU/CPU）设置的不一致导致，为了在定位过程中少走弯路，需要在定位前先对训练环境及代码做有效排查。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？如果容器中的文件实际路径不清楚，可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径（绝对路径） os.path.realpath(__ file __) #获得文件所在的路径（绝对路径）

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

multiprocessing启动方式有误。处理方法可以参考官方文档，如下： """run.py:""" #!/usr/bin/env python import os import torch import torch.distributed as dist import torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
线下容器镜像构建及调试 - AI开发平台ModelArts

基础镜像一般选用ubuntu 18.04的官方镜像，或者nvidia官方提供的带cuda驱动的镜像。相关镜像直接到dockerhub官网查找即可。构建流程：安装所需的apt包、驱动，配置ma-user用户、导入conda环境、配置Notebook依赖。推荐使用Dockerfile的方式构建镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
训练作业的自定义镜像制作流程 - AI开发平台ModelArts

自定义镜像中不能安装GPU或Ascend驱动程序。当用户选择GPU资源运行训练作业时，ModelArts后台自动将GPU驱动程序放置在训练环境中的 /usr/local/nvidia目录；当用户选择Ascend资源运行训练作业时，ModelArts后台自动将Ascend驱动程序放置在/

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
Paraformer基于DevServer适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
迁移环境准备 - AI开发平台ModelArts

裸金属服务器环境配置指南。本文基于方式二的环境进行操作，请参考方式二中的环境开通和配置指导完成裸机和容器开发初始化配置。注意业务基础镜像选择Ascend+PyTorch镜像。配置好的容器环境如下图所示：图1 环境配置完成父主题：基于AIGC模型的GPU推理业务迁移至昇腾指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
启动推理服务 - AI开发平台ModelArts

--disable-async-output-proc：关闭异步后处理特性，关闭后性能会下降。多机部署启动推理服务（可选）当单机显存无法放下模型权重时，可选用多机方式部署；多机部署方式，需要机器在同一个集群，NPU卡之间IP能够ping通方可，具体步骤如下：查看卡IP，在其中一个宿主机上执行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

基础镜像一般选用“ubuntu 18.04”的官方镜像，或者nvidia官方提供的带cuda驱动的镜像。相关镜像直接到dockerhub官网查找即可。构建流程：安装所需的apt包、驱动，配置ma-user用户、导入conda环境、配置Notebook依赖。推荐使用Dockerfile的方式构建镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业

总条数： 1635

上一页
1
...
4
5
6
...
82
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

SD3 Diffusers框架基于Lite Server适配PyTorch NPU推理指导（6.3.912） - AI开发平台ModelArts

查询模型runtime - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

线下容器镜像构建及调试 - AI开发平台ModelArts

训练作业的自定义镜像制作流程 - AI开发平台ModelArts

Paraformer基于DevServer适配PyTorch NPU推理指导（6.3.911） - AI开发平台ModelArts

迁移环境准备 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线