华为云首页用户手册

AI开发平台MODELARTS-Tensorflow:Tensorflow框架启动原理

AI开发平台MODELARTS-Tensorflow:Tensorflow框架启动原理

时间：2024-06-28 17:22:12

AI开发平台MODELARTS 预置框架启动流程说明

Tensorflow框架启动原理

规格和节点个数

下面以选择“GPU: 8*GP-Vnt1 | CPU: 72核 | 内存：512GB”规格为例，介绍在单机和分布式场景下ModelArts规格资源的分配情况。

单机作业时（即选择的节点数为1），ModelArts只会在一个节点上启动一个训练容器，该训练容器独享节点规格的可使用资源。

分布式作业时（即选择的节点数大于1），ModelArts会优先在相同节点上启动一个parameter server（以下简称ps）和一个worker，其中ps将分配一半的CPU和内存资源，即ps拥有“CPU: 36核 | 内存：256GB”的计算资源，worker拥有“GPU: 8*GP-Vnt1 | CPU: 36核 | 内存：256GB”的计算资源。

需要注意的是ps只会分配到CPU和内存资源，而worker除CPU和内存外，还可能分配到加速卡（纯CPU规格除外）。如本例中，每个worker将分配到八张GP Vnt1加速卡，如果ps和worker在相同节点上启动，则磁盘资源由ps和worker共享。

网络通信介绍

单机作业不涉及网络通信情况。
分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。

节点内网络

节点内网络通信即同一个节点上的ps和woker间的网络通信，又可以分为两种情况：容器网络和主机网络。

在使用公共规格进行训练时，使用的是容器网络。
在使用专属池训练时，如果节点配置的是RoCE网卡，使用的是主机网络；如果节点配置的是Infiniband网卡，使用的是容器网络。

节点间网络

分布式作业存在节点间ps和worker的通信，当前ModelArts主要提供了Infiniband网卡或RoCE网卡，带宽高达100Gb/s。

上一篇：AI开发平台MODELARTS-Step2 构建成功的镜像注册到镜像管理模块

下一篇：AI开发平台MODELARTS-Notebook基础镜像x86 自定义专用镜像:镜像二：conda3-ubuntu18.04

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-Tensorflow:Tensorflow框架启动原理

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题