检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
停止训练作业版本 功能介绍 停止训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
表6 TrainingExperimentStatistic 参数 参数类型 描述 job_count Integer 当前实验下的训练作业总个数。 请求示例 创建实验。
模型训练 自动学习训练作业失败 父主题: 自动学习
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
train_instance_type:必选参数,训练实例类型,这里指定'local'即为在notebook中进行训练。 train_instance_count:必选参数,训练使用的worker个数,单机训练时为1,训练作业只在当前使用的notebook中运行。
查询训练作业日志 功能介绍 按行来查询训练作业日志详细信息。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log 参数说明如表1所示。
最小值:1 pool_id String 训练作业选择的资源池ID。 flavor_detail flavor_detail object 训练作业、算法的规格信息。 表45 flavor_detail 参数 参数类型 描述 flavor_type String 资源规格的类型。
更新训练作业描述 功能介绍 更新训练作业的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。
查看训练作业标签 通过给训练作业添加标签,可以标识云资源,便于快速搜索训练作业。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“标签”页签查看标签信息。
查询训练作业版本详情 功能介绍 根据作业ID查看指定的训练作业详情。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。
在“训练作业”列表中,单击作业名称,进入训练作业详情页。 在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。 训练作业基本信息 表1 训练作业基本信息 参数 说明 “作业ID” 训练作业唯一标识。 “作业状态” 训练作业状态。
可能原因是跨区域算法同步或者创建共享存储超时 训练作业已排队,正在等待资源分配 训练作业排队失败 训练作业开始运行 训练作业运行成功 训练作业运行失败 训练作业被抢占 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理 训练作业已重启 训练作业已被手动终止 训练作业已被终止
其他AI引擎的日志都包含在普通日志中,无法区分。 训练日志的时效性 从日志产生的时效性上可以分为以下3种情况: 实时日志:训练作业实时运行时产生,在ModelArts训练作业详情页面上可以查看。
node_count Integer 训练作业选择的资源副本数。 pool_id String 训练作业选择的资源池ID。 flavor_detail FlavorDetail object 训练作业、算法的规格信息(该字段只有公共资源池存在)。
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 无 请求示例 如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存Checkpoint,且“预下载至本地目录”选择“下载”。选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。