AI开发平台MODELARTS-创建生产训练作业:配置训练参数

时间:2024-09-09 09:01:23

配置训练参数

训练过程中可以从OBS桶或者数据集中获取输入数据进行模型训练,训练输出的结果也支持存储至OBS桶中。创建训练作业时可以参考表4配置输入、输出、超参、环境变量等参数。

创建训练作业时选择的创建方式不同,训练作业的输入、输出和超参显示不同。如果参数值置灰,即表示该参数已经在算法代码中配置了且不支持修改。

表4 配置训练参数

参数名称

子参数

说明

输入

参数名称

算法代码需要通过“输入”“参数名称”去读取训练的输入数据。

建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配,请参见创建算法时的表4

数据集

单击“数据集”,在ModelArts数据集列表中勾选目标数据集并选择对应的版本。

训练启动时,系统将自动下载输入路径中的数据到训练运行容器。

说明:

ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户将训练数据存放至OBS桶中使用。

数据存储位置

单击“数据存储位置”,从OBS桶中选择训练输入数据的存储位置。

训练启动时,系统将自动下载输入路径中的数据到训练运行容器。

获取方式

以参数名称为“data_path”的训练输入为例,说明获取方式的作用。

  • 当参数的“获取方式”“超参”时,可以参考如下代码来读取数据。
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument('--data_path')
    args, unknown = parser.parse_known_args()
    data_path = args.data_path 
  • 当参数的“获取方式”“环境变量”时,可以参考如下代码来读取数据。
    import os
    data_path = os.getenv("data_path", "")

输出

参数名称

算法代码需要通过“输出”“参数名称”去读取训练的输出目录。

建议设置为“train_url”。训练输出参数要与所选算法的“输出”参数匹配,请参见创建算法时的表5

数据存储位置

单击“数据存储位置”,从OBS桶中选择训练输出数据的存储位置。训练过程中,系统将自动从训练容器的本地代码目录下同步文件到数据存储位置。

说明:

数据存储位置仅支持OBS路径。为避免数据存储冲突,建议选择一个空目录用作“数据存储位置”

获取方式

以参数名称为“train_url”的训练输出为例,说明获取方式的作用。

  • 当参数的“获取方式”“超参”时,可以参考如下代码来读取数据。
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument('--train_url')
    args, unknown = parser.parse_known_args()
    train_url = args.train_url 
  • 当参数的“获取方式”“环境变量”时,可以参考如下代码来读取数据。
    import os
    train_url = os.getenv("train_url", "")

预下载至本地目录

选择是否将输出目录下的文件预下载至本地目录。

  • 不下载:表示启动训练作业时不会将输出数据的存储位置中的文件下载到训练容器的本地代码目录中。
  • 下载:表示系统会在启动训练作业时自动将输出数据的存储位置中的所有文件下载到训练容器的本地代码目录中。下载时间会随着文件变大而变长,为了防止训练时间过长,请及时清理训练容器的本地代码目录中的无用文件。如果要使用设置断点续训练,则必须选择“下载”

超参

-

超参用于训练调优。此参数由选择的算法决定,如果在算法中已经定义了超参,则此处会显示算法中所有的超参。

超参支持修改和删除,状态取决于算法中的超参“约束”设置,详情请参见定义超参

说明:

为保证数据安全,请勿输入敏感信息,例如明文密码。

环境变量

-

根据业务需求增加环境变量。训练容器中预置的环境变量请参见管理训练容器环境变量

说明:

为保证数据安全,请勿输入敏感信息,例如明文密码。

自动重启

-

打开开关后,可以设置重启次数和是否启用无条件自动重启。

打开自动重启开关后,当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练

重启次数的取值范围是1~128,缺省值为3。创建训练后不支持修改重启次数,请合理设置次数。

勾选无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。

当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度

support.huaweicloud.com/usermanual-standard-modelarts/develop-modelarts-0010.html