AI开发平台MODELARTS-示例:创建DDP分布式训练(PyTorch+NPU):(可选)启用ranktable动态路由

时间:2024-11-21 19:46:05

(可选)启用ranktable动态路由

如果训练作业需要使用ranktable动态路由算法进行网络加速,则可以联系技术支持开启集群的cabinet调度权限。同时,训练作业要满足如下要求才能正常实现ranktable动态路由加速。

  • 训练使用的Python版本是3.7或3.9。
  • 训练作业的实例数要大于或等于3。
  • 路由加速的原理是改变rank编号,所以代码中对rank的使用要统一。

将训练作业完成如下修改后,启动训练作业即可实现网络加速。

  • 将训练启动脚本中的“NODE_RANK="$VC_TASK_INDEX"”修改为“NODE_RANK="$RANK_AFTER_ACC"”
  • 将训练启动脚本中的“MASTER_ADDR="${VC_WORKER_HOSTS%%,*}"”修改为“MASTER_ADDR="${MA_VJ_NAME}-${MA_TASK_NAME}-${MA_MASTER_INDEX}.${MA_VJ_NAME}"”
  • 在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量
support.huaweicloud.com/usermanual-standard-modelarts/modelarts-distributed-0012.html