AI开发平台MODELARTS-在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练:场景描述

时间:2024-08-15 20:49:50

场景描述

ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。

本案例介绍如何在ModelArts Lite场景下使用ranktable路由规划完成Pytorch NPU分布式训练任务,训练任务默认使用Volcano job形式下发到Lite资源池集群。

图1 任务示意图
support.huaweicloud.com/usermanual-cluster-modelarts/umn-cluster-modelarts-0015.html