模型训练亮点特性

  • 收起 展开
    训练模式选择 收起 展开

    针对MindSpore类引擎,ModelArts提供训练模式选择,支持用户根据实际场景获取不同的诊断信息。在训练作业创建页面,支持普通模式、高性能模式和故障诊断模式,默认设置为普通模式。

    了解更多
  • 收起 展开
    模型训练可视化 收起 展开

    ModelArts支持在新版开发环境中开启TensorBoard和MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。

    了解更多
  • 收起 展开
    分布式训练 收起 展开

    主要介绍基于Pytorch引擎的单机多卡数据并行训练、多机多卡数据并行训练。同时,也提供了分布式训练的适配教程和分布式调测的代码示例,可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。

    了解更多
  • 收起 展开
    模型训练加速 收起 展开

    针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能文件服务SFS Turbo的AI云存储解决方案。

    了解更多

模型训练常见问题

  • 本地导入的算法有哪些格式要求?

    ModelArts支持导入本地开发的算法,格式要求如下:

    1. 编程语言不限。
    2. 启动文件必须选择以“.py”结尾的文件。
    3. 文件数(含文件、文件夹数量)不超过1024个。
    4. 文件总大小不超过5GB。


  • ModelArts训练好后的模型如何获取?

    使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。

    使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。

  • 是否支持图像分割任务的训练?

    支持。您可以使用以下三种方式实现图像分割任务的训练。

    1. 您可以在AI Gallery订阅相关图像分割任务算法,并使用订阅算法完成训练。
    2. 如果您在本地使用ModelArts支持的常用框架完成了训练脚本,可以使用自定义脚本创建训练作业。
    3. 如果您在本地开发的算法不是基于常用框架,您可以选择使用自定义镜像创建训练作业。
  • 训练作业常用文件路径是什么?

    训练环境的当前目录以及代码目录在容器的位置一般通过环境变量${MA_JOB_DIR}读取,${MA_JOB_DIR}变量对应的实际值是/home/ma-user/modelarts/user-job-dir。

  • 创建训练作业时提示“对象目录大小/数量超过限制”,如何解决?

    问题分析

    创建训练作业选择的代码目录有大小和文件个数限制。

    解决方法

    将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。

  • 训练作业的“/cache”目录是否安全?

    ModelArts训练作业的程序运行在容器中,容器挂载的目录地址是唯一的,只有运行时的容器能访问到。因此训练作业的“/cache”是安全的。

  • 如何查看训练作业资源占用情况?

    ModelArts管理控制台,选择“训练管理>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。

    1. CPU:CPU使用率(cpuUsage)百分比(Percent)。
    2. MEM:物理内存使用率(memUsage)百分比(Percent)。
    3. GPU:GPU使用率(gpuUtil)百分比(Percent)。
    4. GPU_MEM:显存使用率(gpuMemUsage)百分比(Percent)。