检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询训练作业详情 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。
查询训练日志 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。
查询训练作业版本详情 功能介绍 根据作业ID查看指定的训练作业详情。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。
调用获取训练作业支持的AI预置框架接口查看训练作业的引擎类型和版本。
train_url 否 String 训练作业的输出文件OBS路径URL,默认为空,如:“/usr/train/”。 log_url 否 String 训练作业的日志OBS输出路径URL,默认为空。如:“/usr/log/”。
Standard模型训练 使用ModelArts Standard自定义算法实现手写数字识别 基于ModelArts Standard运行GPU训练作业
表1 必须修改的训练超参配置 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet 必须修改。
TRAIN_ITERS 300 训练周期,必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型,retrain表示断点续训练。
请求示例 如下以查询北京四训练作业所有的CPU公共资源规格为例。 GET https://endpoint/v2/{project_id}/training-job-flavors?
预训练 预训练数据处理 预训练超参配置 预训练任务 断点续训练 查看日志和性能 父主题: Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
删除训练作业版本 功能介绍 删除训练作业一个版本。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。
Standard模型训练 在ModelArts训练得到的模型欠拟合怎么办? 在ModelArts中训练好后的模型如何获取? 在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练? 在ModelArts上训练模型如何配置输入输出数据?
ModelArts Standard平台提供了模型训练常用的预置框架,可以直接使用。 当预置框架不满足训练要求时,支持用户构建自定义镜像用于训练。 准备训练数据 训练数据除了训练数据集,也可以是预测模型。在创建训练作业前,需要先准备好训练数据。
使用预置算法训练时,训练失败,报“bndbox”错误 问题现象 使用预置算法创建训练作业,训练失败,日志中出现如下报错。 KeyError: 'bndbox' 原因分析 用于训练的数据集中,使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。
父主题: 文生图模型训练推理
更新训练作业描述 功能介绍 更新训练作业的描述。 URI PUT /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。
模型训练存储加速 针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。
在“训练作业”列表中,单击作业名称,进入训练作业详情页。 在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。 训练作业基本信息 表1 训练作业基本信息 参数 说明 “作业ID” 训练作业唯一标识。 “作业状态” 训练作业状态。