华为云首页用户手册

AI开发平台MODELARTS-示例：创建DDP分布式训练（PyTorch+NPU）:（可选）启用ranktable动态路由

AI开发平台MODELARTS-示例：创建DDP分布式训练（PyTorch+NPU）:（可选）启用ranktable动态路由

时间：2024-11-21 19:46:05

AI开发平台MODELARTS

（可选）启用ranktable动态路由

如果训练作业需要使用ranktable动态路由算法进行网络加速，则可以联系技术支持开启集群的cabinet调度权限。同时，训练作业要满足如下要求才能正常实现ranktable动态路由加速。

训练使用的Python版本是3.7或3.9。
训练作业的实例数要大于或等于3。
路由加速的原理是改变rank编号，所以代码中对rank的使用要统一。

将训练作业完成如下修改后，启动训练作业即可实现网络加速。

将训练启动脚本中的“NODE_RANK="$VC_TASK_INDEX"”修改为“NODE_RANK="$RANK_AFTER_ACC"”。
将训练启动脚本中的“MASTER_ADDR="${VC_WORKER_HOSTS%%,*}"”修改为“MASTER_ADDR="${MA_VJ_NAME}-${MA_TASK_NAME}-${MA_MASTER_INDEX}.${MA_VJ_NAME}"”。
在创建训练作业页面配置环境变量“ROUTE_PLAN”，取值为“true”，具体操作请参见管理训练容器环境变量。

上一篇：AI开发平台MODELARTS-示例：创建DDP分布式训练（PyTorch+NPU）:创建训练作业

下一篇：AI开发平台MODELARTS-示例：创建DDP分布式训练（PyTorch+NPU）:创建训练作业

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-示例：创建DDP分布式训练（PyTorch+NPU）:（可选）启用ranktable动态路由

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题