检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型
conv2d/weights. 通过以下方式控制需要训练的参数列表。其中,“trainable_include_patterns”为需要训练的参数列表,“trainable_exclude_patterns”为不需要训练的参数列表。 --trainable_exclude_patterns:
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
用户还可以创建训练作业的数量。 jobs jobs结构数组 训练作业的属性列表,具体请参见表4。 quotas Integer 训练作业的运行数量上限。 表4 jobs属性列表 参数 参数类型 说明 job_id Long 训练作业的ID。 job_name String 训练作业的名称。
{training_job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数
/v2/{project_id}/trainJob/{training_job_id}/tags/create 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。
node_count Integer 训练作业选择的资源副本数。 pool_id String 训练作业选择的资源池ID。 flavor_detail FlavorDetail object 训练作业、算法的规格信息(该字段只有公共资源池存在)。 表37 FlavorDetail 参数 参数类型 描述
node_count Integer 训练作业选择的资源副本数。 最小值:1 pool_id String 训练作业选择的资源池ID。 flavor_detail flavor_detail object 训练作业、算法的规格信息。 表45 flavor_detail 参数 参数类型 描述 flavor_type
停止训练作业版本 功能介绍 停止训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 参数说明如表1所示。
训练作业性能问题 训练作业性能降低 父主题: 训练作业
训练作业卡死 训练作业卡死检测定位 复制数据卡死 训练前卡死 训练中途卡死 训练最后一个epoch卡死 父主题: 训练作业
训练最后一个epoch卡死 问题现象 通过日志查看数据切分是否对齐,若未对齐,容易导致部分进程完成训练退出,而部分训练进程因未收到其他进程反馈卡死,如下图同一时间有的进程在epoch48,而有的进程在epoch49。 解决方案 对齐数据。 父主题: 训练作业卡死
查询训练作业日志 功能介绍 按行来查询训练作业日志详细信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 name String
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GPU相关问题 业务代码问题 预置算法运行故障 训练作业卡死 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题 Ascend相关问题
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 update_job_configs请求参数说明 参数
A/training/,训练代码会被自动下载至${MA_JOB_DIR}/training/。 假设训练代码的OBS目录为obs://bucket-A/XXX/{training-project}/,“{training-project}”是存放训练代码的文件夹名称。训练时会自动
训练作业是否支持定时或周期调用? ModelArts训练作业不支持定时周期化调用。当您的作业处于“运行中”状态时,可以按照业务需求进行调用。 父主题: 管理训练作业版本
模型训练 自动学习训练作业创建失败 自动学习训练作业失败 父主题: 自动学习
训练管理 创建算法 查询算法列表 查询算法详情 更新算法 删除算法 获取支持的超参搜索算法 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表