搜索_华为云

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

我的镜像”页面，执行刷新操作后可查看到对应的镜像信息。上传数据和算法至SFS ECS服务器已挂载SFS，请参考在ECS服务器挂载SFS Turbo存储。已经在ECS中设置权限，请参考在ECS中设置ModelArts用户可读权限。已经安装和配置obsutil，请参见安装和配置OBS命令行工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
如何减小本地或ECS构建镜像的目的镜像的大小？ - AI开发平台ModelArts

如何减小本地或ECS构建镜像的目的镜像的大小？减小目的镜像大小的最直接的办法就是选择尽可能小且符合自己诉求的镜像，比如您需要制作一个PyTorch2.1+Cuda12.2的镜像，官方如果没有提供对应的PyTorch或者Cuda版本的镜像，优选一个没有PyTorch环境或没有安装

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Standard上运行GPU多机多卡训练作业操作流程准备工作：购买服务资源（VPC/SFS/OBS/SWR/ECS）配置权限创建专属资源池（打通VPC） ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

在ModelArts的Notebook中如何查看GPU使用情况？创建Notebook时，当您选择的类型为GPU时，查看GPU使用情况具体操作如下：登录ModelArts管理控制台，选择“开发空间>Notebook”。在Notebook列表中，单击目标Notebook“操作”

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

run”中，修改“log_dir”参数，并新增“checkpoint_path”参数。其中“log_dir”参数建议设置为一个新的目录，“checkpoint_path”参数设置为上一次训练结果输出路径，如果是OBS目录，路径填写时建议使用“obs://”开头。如果标注数据中的标签发生了变化，在运行“mox

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
如何调用API - AI开发平台ModelArts

如何调用API 构造请求认证鉴权返回结果

 帮助中心 > AI开发平台ModelArts > API参考
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

用的资源选择。在ECS服务器挂载SFS Turbo存储在ECS服务器挂载SFS Turbo存储后，支持将训练所需的数据通过ECS上传至SFS Turbo。检查云服务环境。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像用的是Ubuntu

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
配置Lite Server存储 - AI开发平台ModelArts

Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通，因此保证SFS Turbo与Server服务器在同一区域即可。当创建文件系统后，您需要使用弹性裸金属服务器来挂载该文件系统，具体步骤请参考挂载NFS协议类型文件系统到云服务器（Linux）。为避免已挂载文件系统的云服务器重启后，挂载信息丢失，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
如何在ModelArts的Notebook的CodeLab上安装依赖？ - AI开发平台ModelArts

如何在ModelArts的Notebook的CodeLab上安装依赖？ ModelArts CodeLab中已安装Jupyter、Python程序包等多种环境，您也可以使用pip install在Notebook或Terminal中安装依赖包。在Notebook中安装在总览页面进入CodeLab。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
如何登录并上传镜像到SWR？ - AI开发平台ModelArts

此处实际创建的组织名称。单击右上角“登录指令”，获取登录访问指令。以root用户登录ECS环境，输入登录指令。图1 在ECS中执行登录指令 Step2 上传镜像到SWR 此小节介绍如何上传镜像至容器镜像服务SWR的镜像仓库。登录SWR后，使用docker tag命令给上传

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

n_url”代替算法中数据来源和数据输出所需的路径。在使用预置框架创建算法时，根据1中的代码参数设置定义的输入输出参数。训练数据是算法开发中必不可少的输入。“输入”参数建议设置为“data_url”，表示数据输入来源，也支持用户根据1的算法代码自定义代码参数。模型训练结束后

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3 购买ECS ECS服务器挂载SFS Turbo ECS服务器中手动挂载SFS Turbo步骤如下：用户可通过CloudShell或SSH等方式登录并访问ECS服务器，进入ECS终端界面。创建/mnt/sfs_turbo目录作为挂载目录

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
返回结果 - AI开发平台ModelArts
返回结果 - AI开发平台ModelArts

"error_code": "AS.0001" } 其中，error_code表示错误码，error_msg表示错误描述信息，具体请参见错误码。父主题：如何调用API

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

s申请更多资源。图5 报错信息 ECS、BMS节点创建失败？查看资源池失败报错信息：包含错误码，如：Ecs.0000时，可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。包含错误码，如：BMS.0001时，可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

登录AOM控制台。在左侧导航栏选择“告警管理 > 告警规则”，单击“创建”，创建告警规则。设置告警规则（以NPU掉卡为例）。规则类型：选择“指标告警规则”。配置方式：选择“PromQL”。设置告警规则详情。默认规则：选择“自定义”。命令行输入框(排除值为2的为无效数据)：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster

总条数： 1365

上一页
1
2
3
4
5
...
69
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

如何减小本地或ECS构建镜像的目的镜像的大小？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

如何调用API - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

如何在ModelArts的Notebook的CodeLab上安装依赖？ - AI开发平台ModelArts

如何登录并上传镜像到SWR？ - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

返回结果 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线