搜索_华为云

AI开发调试系列第一弹：本地训练和本地推理

重推出本地训练，帮助用户快速验证训练脚本和参数的正确性。本地训练 Notebook创建并启动成功后，modelarts-sdk就已经安装完成了。利用SDK，用户可以先在notebook容器里创建并调试训练作业，保证训练代码、参数和数据都无误后，再将训练作业提交到训练平台上，达到事半功倍的效果。本地训练的流程如下：

开发者 > 博客

作者： alpha-one

发表时间： 2021-05-29 06:31:48

2069

0

查询训练作业版本详情 - AI开发平台ModelArts

Integer 训练作业worker的个数。 data_url String 训练作业的数据集。 train_url String 训练作业输出文件OBS路径。 log_url String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 dataset_version_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

更新训练作业描述 - AI开发平台ModelArts

Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。表2 update_job_configs请求参数说明参数

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

停止训练作业版本 - AI开发平台ModelArts

停止训练作业版本功能介绍停止训练作业。此接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 参数说明如表1所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

创建训练作业版本 - AI开发平台ModelArts

创建训练作业版本功能介绍创建一个训练作业版本。该接口为异步接口，作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions 参数说明如表1所示。表1 参数说明

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

创建训练作业镜像保存任务 - AI开发平台ModelArts

training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数表2 请求Body参数参数是否必选参数类型描述 name 否 String 镜像名

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

查询训练作业镜像保存任务 - AI开发平台ModelArts

training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数无响应参数状态码：200 表2 响应Body参数参数参数类型描述 name String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

查询训练作业日志 - AI开发平台ModelArts

查询训练作业日志功能介绍按行来查询训练作业日志详细信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 参数说明如表1所示。表1 路径参数参数是否必选参数类型

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

准备模型训练镜像 - AI开发平台ModelArts

8.3-aarch64 构建自定义训练镜像图1 训练作业的自定义镜像制作流程场景一：预置镜像满足ModelArts训练平台约束，但不满足代码依赖的要求，需要额外安装软件包。具体案例参考使用预置镜像制作自定义镜像用于训练模型。场景二：已有本地镜像满足代码依赖的要求，但是不满足

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型

训练作业调测 - AI开发平台ModelArts

训练作业调测使用SDK调测单机训练作业使用SDK调测多机分布式训练作业父主题：训练作业

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

训练作业失败，如何使用开发环境调试训练代码？ - AI开发平台ModelArts

训练作业失败，如何使用开发环境调试训练代码？在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VsCode）联接云上环境调试请参考使用本地IDE开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

模型训练使用流程 - AI开发平台ModelArts

h框架创建训练作业。训练作业进阶功能 ModelArts Standard还支持以下训练进阶功能，例如：增量训练分布式训练训练加速训练高可靠性查看训练结果和日志查看训练作业详情训练作业运行中或运行结束后，可以在训练作业详情页面查看训练作业的参数设置，训练作业事件等。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型

Standard模型训练 - AI开发平台ModelArts

Standard模型训练使用ModelArts Standard自定义算法实现手写数字识别基于ModelArts Standard运行GPU训练作业

帮助中心 > AI开发平台ModelArts > 最佳实践

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

调用查询训练作业详情接口使用刚创建的训练作业返回的id查询训练作业状态。调用查询训练作业指定任务的日志（OBS链接）接口获取训练作业日志的对应的obs路径。调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例

OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障

训练作业性能问题 - AI开发平台ModelArts

训练作业性能问题训练作业性能降低父主题：训练作业

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

训练作业 - AI开发平台ModelArts

训练作业 OBS操作相关故障云上迁移适配故障硬盘限制故障外网访问限制权限问题 GPU相关问题业务代码问题预置算法运行故障训练作业卡死检测定位训练作业运行失败专属资源池创建训练作业训练作业性能问题 Ascend相关问题

帮助中心 > AI开发平台ModelArts > 故障排除

使用SDK调测单机训练作业 - AI开发平台ModelArts

job_name：可选参数，训练任务名，便于区分和记忆。本地单机调试训练任务开始后，SDK会依次帮助用户完成以下流程：初始化训练作业，如果2指定的训练数据在OBS上，这里会将数据下载到local_path中。执行训练任务，用户的训练代码需要将训练输出保存在4中指定的local_path中。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测

训练作业卡死检测定位 - AI开发平台ModelArts

训练作业卡死检测定位什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

查询训练作业版本列表 - AI开发平台ModelArts

调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_count Long 训练作业的版本数。 versions JSON Array 训练作业的运行版本参数。该样例请参考响应样例。属性详情参见表4。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

意见反馈