检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 action_type 是 String 对训练作业的操作请求。参数值设置为terminate时,表示终止训练作业操作。 响应参数 状态码:
job_id Long 训练作业的ID。 job_name String 训练作业的名称 status Int 训练作业的运行状态,详细作业状态列表请参见作业状态参考。 create_time Long 训练作业的创建时间,时间戳格式。 version_id Long 训练作业的版本ID。
训练脚本说明 yaml配置文件参数配置说明 各个模型深度学习训练加速框架的选择 模型NPU卡数取值表 各个模型训练前文件替换 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.907)
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 kind String 训练作业类型。默认使用job。枚举值: job 训练作业。 metadata JobMetadata
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 无 响应参数 无 请求示例 如下以删除uuid为3faf5c03-aaa1-4cbe-879d-24b05d997347的训练作业为例。 DELETE https://end
名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 description 否 String 对训练作业的描述,默认为“NULL”,字符串的长度限制为[0, 256]。
创建训练作业标签 功能介绍 创建训练作业标签,支持批量添加,当添加的标签key已存在,则覆盖该标签的value。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
些训练指标,还有推动网络涉及的推理速度和监控等。另外还包括一些元学习的训练参数的自动配置、模型训练的参数配置及搜索等。另外,由于深度学习向计算机视觉输入原始数据,整个特征工程是在神经网络里面做的,而机器学习需要很多算法工程师去识别哪些特征是对业务是起正向作用的,所以自动机器学习的
数据缺失。 标签列指的是在训练任务中被指定为训练目标的列,即最终通过该数据集训练得到模型时的输出(预测项)。 除标签列外数据集中至少还应包含两个有效特征列(列的取值至少有两个且数据缺失比例低于10%)。 训练数据的csv文件不能包含表头,否则会导致训练失败。 父主题: 准备数据
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
训练管理 创建算法 查询算法列表 查询算法详情 更新算法 删除算法 获取支持的超参搜索算法 创建训练实验 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标
ModelArts训练好后的模型如何获取? 使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。 使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。 父主题: 功能咨询
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(
停止训练作业版本 功能介绍 停止训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop 参数说明如表1所示。
查询训练作业标签 功能介绍 查询训练作业标签。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/trainJob/{training_job_id}/tags
Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoi
JobResponse 参数 参数类型 描述 kind String 训练作业类型。默认使用job。枚举值: job 训练作业。 metadata JobMetadata object 训练作业元信息。 status Status object 训练作业状态信息。创建作业无需填写。 algorithm
浅谈深度学习中的混合精度训练 大家好,本次博客为大家介绍一下深度学习中的混合精度训练,并通过代码实战的方式为大家讲解实际应用的理论,并对模型进行测试。 1 混合精度训练 混合精度训练最初是在论文Mixed Precision Training中被提出,该论文对混合精度训练进行了