创建训练作业

前提条件

1、数据已完成准备:已在ModelArts中创建可用的数据集,或者您已将用于训练的数据上传至OBS目录。

2、“算法管理”中,已完成算法创建。

3、已在OBS创建至少1个空的文件夹,用于存储训练输出的内容。ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。

4、由于训练作业运行需消耗资源,确保账户未欠费。

5、确保您使用的OBS目录与ModelArts在同一区域。

6、检查是否配置了访问授权。若未配置,请参考使用委托授权完成操作。


创建训练作业

1、登录ModelArts管理控制台

2、在左侧导航栏中,选择“训练管理 > 训练作业”,进入“训练作业”列表。

3、单击“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。

4、选择训练资源的规格。训练参数的可选范围与已有算法的使用约束保持一致。

5、训练模式选择。针对MindSpore类引擎,ModelArts提供训练模式选择,支持用户根据实际场景获取不同的诊断信息。

6、(可选)配置高级选项。

7、单击“提交”,完成训练作业的创建。

参数填写说明见创建训练作业

模型训练-视频帮助

基于算法套件SDK构建可视化数据集

03:03

基于算法套件SDK构建可视化数据集

基于算法套件SDK进行交互式推理

03:27

基于算法套件SDK进行交互式推理

基于算法套件SDK进行训练

02:18

基于算法套件SDK进行训练

创建训练作业常见问题

创建训练作业常见问题

  • 创建训练作业时提示“对象目录大小/数量超过限制”,如何解决?

    问题分析

    创建训练作业选择的代码目录有大小和文件个数限制。

    解决方法

    将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。

  • 训练作业参数填写应该注意什么?

    训练作业参数填写需要您注意以下几点:

    1、如果已配置算法来源和数据来源,则下方的运行参数,将根据选择的对象自动填写“data_url”,无法直接在运行参数中直接修改。

    2、在创建训练作业配置运行参数时,只需要填写对应的参数与参数值。

    3、训练作业中的参数值为OBS桶路径时,需要使用数据对应的路径,且以“obs://”开头。

    4、在代码中创建OBS文件夹时,需要调用MoXing的API,具体方法如下:

    import moxing as mox
    mox.file.make_dirs('obs://bucket_name/sub_dir_0/sub_dir_1')



  • 训练作业的“/cache”目录是否安全?

    ModelArts训练作业的程序运行在容器中,容器挂载的目录地址是唯一的,只有运行时的容器能访问到。因此训练作业的“/cache”是安全的。

  • 训练环境中不同规格资源“/cache”目录的大小

    在创建训练作业时可以根据训练作业的大小选择CPU、GPU或者Ascend资源。

    ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。

  • 训练作业一直在等待中(排队)?

    训练作业状态一直在等待中状态表示当前所选的资源池规格资源紧张,作业需要进行排队,请耐心等待。如想降低排队时间,根据您所选资源池的类型,有以下建议:

    1、公共资源池:

    1. 公共资源池资源较少,高峰期如举办相关活动时会存在资源不足情况。有以下方法可以尝试:
    2. 如果使用的是免费规格,可以换成收费规格,免费规格资源较少,排队概率高。
    3. 规格选择卡数尽量少,如可以选择1卡,相比于选择8卡排队几率大大降低。
    4. 可以尝试使用其他Region(如北京四切换为上海一)。
    5. 如果有长期的资源使用诉求,可以购买独占使用的专属资源池。

    2、专属资源池:

    1. 如有多个可用的专属资源池,可尝试选择其他较为空闲的资源池。
    2. 可清理当前资源池下的其他资源,如停止长时间不使用的Notebook。
    3. 在非高峰期时提交训练作业。
    4. 如长期长时间排队可以联系该专属资源池的账号管理员,管理员可根据使用情况对资源池进行扩容。