云服务器内容精选

  • 相关章节 单机多卡数据并行-DataParallel(DP):介绍单机多卡数据并行分布式训练原理和代码改造点。 多机多卡数据并行-DistributedDataParallel(DDP):介绍多机多卡数据并行分布式训练原理和代码改造点。 分布式调测适配及代码示例:提供了分布式训练调测具体的代码适配操作过程和代码示例。 分布式训练完整代码示例:针对Resnet18在cifar10数据集上的分类任务,给出了分布式训练改造(DDP)的完整代码示例,供用户学习参考。 基于开发环境使用SDK调测训练作业:介绍如何在ModelArts的开发环境中,使用SDK调测单机和多机分布式训练作业。
  • 约束限制 总览页面打开的CodeLab不支持此项功能,但是如果用户在AI Hub中打开了可用的案例,会自动跳转到CodeLab中,此时是可以使用这项功能的。 如果切换了Notebook的规格,那么只能在Notebook进行单机调测,不能进行分布式调测,也不能提交远程训练任务。 当前仅支持PyTorch和MindSpore AI框架,如果MindSpore要进行多机分布式训练调试,则每台机器上都必须有8张卡。 本文档提供的调测代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 本文档提供的调测代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,只需要修改个别的参数即可。