搜索_华为云

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改7和11中的 framework_type参数值即可，例如：MindSpore框架，此处framew

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

gz"，需要替换为1中pytorch.tar.gz在OBS上的路径（需将文件设置为公共读）。进入Dockerfile目录，通过Dockerfile构建镜像命令： # cd 到Dockerfile所在目录下，输入构建命令 # docker build -t ${image_name}:${image_version}

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
自定义镜像规范 - AI开发平台ModelArts

自定义镜像的使用流程托管自定义镜像，操作步骤请参考托管模型到AI Gallery。如果自定义镜像要支持训练，则需要满足自定义镜像规范（训练）。如果自定义镜像要支持推理，则需要满足自定义镜像规范（推理）。上架自定义镜像，操作步骤请参考发布模型到AI Gallery。在AI Gallery进行自定义镜像训练或推理。使用AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

${container_name} sdxl-train:0.0.1 步骤二创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织步骤三在宿主机上传镜像到SWR 在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中复制临时登录指令，即可完成登录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
创建ModelArts数据校验任务 - AI开发平台ModelArts

要是指图片的位置和标注信息等），可以直接使用这个output.manifest文件创建数据集，或者把output.manifest文件导入到已经存在的数据集中。物体检测在输出目录下，文件结构如下所示。 output_path/ --Data/ ----1_checked

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
执行训练任务 - AI开发平台ModelArts

如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json 文件。步骤二修改训练yaml文件配置 Lla

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
执行训练任务 - AI开发平台ModelArts

如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json 文件。步骤二修改训练yaml文件配置 Lla

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info.json 文件。步骤二：修改训练yaml文件配置 Lla

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 ModelArts Standard训练服务预置了多种AI框架，并对不同的框架提供了针对性适配，用户在使用这些预置框架进行模型训练时，训练的启动命令也需要做相应适配。本章节详细介绍基于不同的预置框架创建训练作业时，如何修改训练的启动文件。 Asc

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
将模型部署为批量推理服务 - AI开发平台ModelArts

中，请勿输入敏感信息，如明文密码。 “部署超时时间” 用于设置单个模型实例的超时时间，包括部署和启动时间。默认值为20分钟，输入值必须在3到120之间。 “运行日志输出” 默认关闭，批量服务的运行日志仅存放在ModelArts日志系统，在服务详情页的“日志”支持简单查询。如果开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

准备一台Linux环境，这里以ECS为例。在ECS中构建镜像（本文档提供了Dockflie样例文件）。将构建的镜像推到SWR。注册SWR镜像到ModelArts。创建Notebook并验证新镜像。准备Docker机器并配置环境信息准备一台具有Docker功能的机器，如果没有，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

ssh 上传公钥到服务器。例如用户名为root，服务器地址为192.168.222.213，则将公钥上传至服务器的命令如下： ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

创建专属资源池（不需要打通VPC）安装和配置OBS命令行工具（可选）工作空间配置模型训练本地构建镜像及调试上传镜像上传数据和算法到OBS 使用Notebook进行代码调试创建单机单卡训练作业监控资源本地构建镜像及调试本节通过打包conda env来构建环境，也可以通过pip

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用SDK调测单机训练作业 - AI开发平台ModelArts

使用SDK调测单机训练作业代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，仅需修改6和10中的framework_type参数值即可，例如：MindSpore框架，此处framework_

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
查询训练作业列表 - AI开发平台ModelArts

分组条件键对应值。表3 get_job_list返回参数说明参数参数类型描述 total Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的限制量。最小为1，最大为50。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
创建AI应用 - AI开发平台ModelArts

创建AI应用功能介绍导入元模型创建AI应用。执行代码、模型需先上传至OBS（训练作业生成的模型已默认存储到OBS）。接口约束使用模板导入模型与不使用模板导入这两类导入方式的Body参数要求不一样。以下Body参数说明中以模板参数表示适合使用模板导入模型时填写的参数，非模

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
创建Workflow模型注册节点 - AI开发平台ModelArts

创建Workflow模型注册节点功能介绍通过对ModelArts模型管理的能力进行封装，实现将训练后的结果注册到模型管理中，便于后续服务部署、更新等步骤的执行。主要应用场景如下：注册ModelArts训练作业中训练完成的模型。注册自定义镜像中的模型。属性总览您可以使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
查询训练作业列表 - AI开发平台ModelArts

响应参数状态码： 200 表4 响应Body参数参数参数类型描述 total Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的每页条目数。最小为1，最大为50。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

# 替换为实际使用的镜像业务负载和自定义指标采集可以共用一个容器，也可以由SideCar容器采集指标数据，然后将自定义指标采集容器指定到SideCar容器，这样可以不占用业务负载容器的资源。自定义指标数据格式自定义指标数据的格式必须是符合open metrics规范的文本，即每个指标的格式应为：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

4b" mox.file.copy_parallel(obs_dir, local_dir) 实际操作如下图所示。图1 上传OBS文件到Notebook的代码示例 Step3 启动推理服务配置需要使用的NPU卡为容器中的第几张卡。例如：实际使用的是容器中第1张卡，此处填写“0”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）

总条数： 86

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

自定义镜像规范 - AI开发平台ModelArts

在Standard上部署SD WebUI推理服务 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

创建Workflow模型注册节点 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线