检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练管理 训练作业 资源和引擎规格接口
训练管理(旧版) 训练作业 训练作业参数配置 可视化作业 资源和引擎规格接口 作业状态参考 父主题: 历史API
表2 get_job_log请求参数说明 参数 是否必选 参数类型 描述 task_id 否 String 要查看哪个工作节点的日志,默认值为"worker-0";如果在创建训练作业时参数train_instance_count选择了2,则可选值为"worker-0","worker
支持通过算法资产、自定义算法、AI Gallery订阅算法创建训练作业,使训练作业的创建更灵活、易用 提供实验管理能力,用户通常需要调整数据集、调整超参等进行多轮作业从而选择最理想的作业,模型训练支持统一管理多个训练作业,方便用户选择最优的模型 提供训练作业的事件信息(训练作业生命周期中的关键事件点
最小值:1 pool_id String 训练作业选择的资源池ID。 flavor_detail flavor_detail object 训练作业、算法的规格信息。 表43 flavor_detail 参数 参数类型 描述 flavor_type String 资源规格的类型。
node_count Integer 训练作业选择的资源副本数。 pool_id String 训练作业选择的资源池ID。 flavor_detail FlavorDetail object 训练作业、算法的规格信息(该字段只有公共资源池存在)。
训练作业 创建训练作业 查询训练作业列表 查询训练作业版本详情 删除训练作业版本 查询训练作业版本列表 创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
查询训练作业列表 功能介绍 根据指定条件查询用户创建的训练作业。 URI GET /v1/{project_id}/training-jobs 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。
training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。
增量模型训练 什么是增量训练 增量训练(Incremental Learning)是机器学习领域中的一种训练方法,它允许人工智能(AI)模型在已经学习了一定知识的基础上,增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力,而不需要从头开始。
训练时会自动下载OBS中{training-project}目录下的数据到训练容器的本地路径$MA_JOB_DIR/{training-project}/。
“输出”数据默认配置为模型输出,代码参数为“train_url”,也支持用户根据1的算法代码自定义输出路径参数。 在创建训练作业时,填写输入路径和输出路径。 训练输入选择对应的OBS路径或者数据集路径,训练输出选择对应的OBS路径。 父主题: 训练过程读取数据
通过以下方式控制需要训练的参数列表。其中,“trainable_include_patterns”为需要训练的参数列表,“trainable_exclude_patterns”为不需要训练的参数列表。
训练模型时引用依赖包,如何创建训练作业? ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。
sh diffusers_lora_train.sh 启动SDXL LoRA训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_lora_train.sh 训练执行成功如下图所示。
启动SD1.5 Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。
处理方法 使用单标签分类的数据集进行训练。 父主题: 数据集问题导致训练失败
job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 无成功响应参数。
表1 必须修改的训练超参配置 参数 示例值 参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/train-00000-of-00001-a09b74b3ef9c3b56.parquet 必须修改。