搜索_华为云

开发Workflow命令参考 - AI开发平台ModelArts

开发Workflow命令参考开发Workflow的核心概念介绍配置Workflow参数配置Workflow的输入输出目录创建Workflow节点构建Workflow多分支运行场景编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
ECS获取基础镜像 - AI开发平台ModelArts

docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
文生图模型训练推理 - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） SDXL基于Lite Server适配PyTorch NPU的Finetune训练指导（6.3.905） SDXL基于Lite Server适配PyTorch NPU的LoRA训练指导（6.3.905）

帮助中心 > AI开发平台ModelArts > 最佳实践
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。如果上述方法还出现了错误，可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量，或者用以下代码测试，查看结果是否返回的是True。 import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
准备模型训练代码 - AI开发平台ModelArts

准备模型训练代码预置框架启动文件的启动流程说明开发用于预置框架训练的代码开发用于自定义镜像训练的代码自定义镜像训练作业配置节点间SSH免密互信父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

to process the new request 原因分析该报错是因为发送预测请求后，服务出现停止后又启动的情况。处理方法需要您检查服务使用的镜像，确定服务停止的原因，修复问题。重新创建模型部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。确认该cuda版本与您安装的mmcv版本是否匹配。部署时是否需要使用GPU，取决于的模型需要用到CPU还是GPU，以及推理脚本如何编写。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Lite Cluster使用前必读 - AI开发平台ModelArts

Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表不同机型的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
硬盘限制故障 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制日志提示"write line error" 日志提示“No space left on device” OOM导致训练作业失败常见的磁盘空间不足的问题和解决办法父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

rt_rcv_data) res=$(($y-$x)) echo $res 上述获取的值*4/300 ，即为当前网卡的接收速率，单位Byte/s。方法2：使用ib_write_bw测试RDMA的读写处理确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
Standard数据准备 - AI开发平台ModelArts

制吗？如何将本地标注的数据导入ModelArts？在ModelArts中数据标注完成后，标注结果存储在哪里？在ModelArts中如何将标注结果下载至本地？在ModelArts中进行团队标注时，为什么团队成员收不到邮件？ ModelArts团队标注的数据分配机制是什么？

帮助中心 > AI开发平台ModelArts > 常见问题
上传算法至SFS - AI开发平台ModelArts

timm==0.4.12 termcolor==1.1.0 yacs==0.1.8 准备run.sh文件中所需要的obs文件路径。准备imagenet数据集的分享链接勾选要分享的imagenet21k_whole数据集文件夹，单击分享按钮，选择分享链接有效期，自定义提取码，例如123456，单击“复制链接”，记录该链接。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
Lite Server资源使用 - AI开发平台ModelArts

Lite Server资源使用 LLM/AIGC/数字人基于Server适配NPU的训练推理指导 GPT-2基于Server适配PyTorch GPU的训练推理指导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
ECS获取基础镜像 - AI开发平台ModelArts

docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
ModelArts CLI命令参考 - AI开发平台ModelArts

令 ma-cli configure鉴权命令 ma-cli image镜像构建支持的命令 ma-cli ma-job训练作业支持的命令 ma-cli dli-job提交DLI Spark作业支持的命令使用ma-cli obs-copy命令复制OBS数据父主题：使用Notebook进行AI开发调试

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
资源标签管理 - AI开发平台ModelArts

资源标签管理查询资源池的所有标签查询资源池上的标签

 帮助中心 > AI开发平台ModelArts > API参考
通过Function Calling扩展大语言模型交互能力 - AI开发平台ModelArts

Calling扩展大语言模型交互能力 Function Calling介绍在Dify中配置支持Function Calling的模型使用通过Function Calling扩展大语言模型对外部环境的理解

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
训练作业运行失败 - AI开发平台ModelArts

训练作业运行失败排查指导训练作业运行失败，出现NCCL报错自定义镜像训练作业失败定位思路使用自定义镜像创建的训练作业一直处于运行中使用自定义镜像创建训练作业找不到启动文件训练作业的监控内存指标持续升高直至作业失败订阅算法物体检测YOLOv3_ResNet18(Ascend)训练失败报错label_map

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
MoXing - AI开发平台ModelArts
MoXing - AI开发平台ModelArts

MoXing 使用MoXing复制数据报错如何关闭Mox的warmup Pytorch Mox日志反复输出 moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？训练作业使用MoXing复制数据较慢，重复打印日志

 帮助中心 > AI开发平台ModelArts > 故障排除

总条数： 2391

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开发Workflow命令参考 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

文生图模型训练推理 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

准备模型训练代码 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

Lite Cluster使用前必读 - AI开发平台ModelArts

硬盘限制故障 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

Standard数据准备 - AI开发平台ModelArts

上传算法至SFS - AI开发平台ModelArts

Lite Server资源使用 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

ModelArts CLI命令参考 - AI开发平台ModelArts

分布式模型训练 - AI开发平台ModelArts

资源标签管理 - AI开发平台ModelArts

通过Function Calling扩展大语言模型交互能力 - AI开发平台ModelArts

训练作业运行失败 - AI开发平台ModelArts

MoXing - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线