-
不同机型的对应的软件配套版本 - AI开发平台ModelArts
集群网络模式:容器隧道网络|VPC 集群转发模式:iptables|ipvs 操作系统:EulerOS 2.8 架构类型:arm 集群类型:CCE Standard 集群版本:v1.23|v1.25 集群规模:50|200|1000|2000 集群网络模式:容器隧道网络|VPC
-
资源管理 - AI开发平台ModelArts
资源管理 查询OS的配置参数 查询插件模板 查询节点列表 批量删除节点 查询事件列表 创建网络资源 查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计 查询资源规格列表
-
Tensorflow - AI开发平台ModelArts
享。 网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 节点内网络通信即同一个节点上的ps和woker间的网络通信,又可以分为两种情况:容器网络和主机网络。 在使用公共规格进行训练时,使用的是容器网络。 在
-
Horovod/MPI/MindSpore-GPU - AI开发平台ModelArts
| CPU: 72核 | 内存:512GB”的计算资源。 网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 使用NVLink和共享内存通信。 节点间网络 当计算节点个数大于1时,将启动PyTorch引擎分布式
-
购买Server资源 - AI开发平台ModelArts
则不会显示IPv6网络参数,请以控制台实际显示为准。 RoCE网络 当前使用A系列GPU时,进行分布式训练为了将硬件上的RoCE网卡使用起来,需要配置RoCE网络。 该参数与所选规格有关,若未选中规格或规格不支持RoCE网络,则不显示。 若规格支持RoCE网络但未创建过,单击“新建RoCE网络”即可完成创建。
-
ModelArts支持的监控指标 - AI开发平台ModelArts
send_bytes_rate 上行速率 统计ModelArts用户服务的 出方向网络流速。 单位:bit/min ≥bit/min ModelArts模型负载 1分钟 recv_bytes_rate 下行速率 统计ModelArts用户服务的 入方向网络流速。 ≥bit/min ModelArts模型负载 1分钟
-
PyTorch - AI开发平台ModelArts
格,请参考Ascend-Powered-Engine。 网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 使用NVLink和共享内存通信。 节点间网络 当计算节点个数大于1时,将启动PyTorch引擎分布式
-
Ascend-Powered-Engine - AI开发平台ModelArts
Ascend加速卡训练示例使用自定义镜像来启动训练作业。 网络通信介绍 单机作业不涉及网络通信情况。 分布式作业的涉及网络通信则可以分为节点内网络通信和节点间网络通信。 节点内网络 使用HCCS和共享内存通信。 节点间网络 worker之间可通过容器网络和Ascend加速卡上的RoCE网络通信。 启动命令 训练服
-
推理服务支持虚拟私有云(VPC)直连的高速访问通道 - AI开发平台ModelArts
返回专属资源池列表,选择“网络”页签,找到专属资源池关联的网络,打通VPC。打通VPC网络后,网络列表和资源池详情页面将显示VPC名称,单击后可以跳转至VPC详情页面。 图2 查找专属资源池 图3 查看网络配置 图4 打通VPC VPC下创建弹性云服务器 登录弹性云服务器ECS
-
访问在线服务(VPC高速访问通道) - AI开发平台ModelArts
返回专属资源池列表,选择“网络”页签,找到专属资源池关联的网络,打通VPC。打通VPC网络后,网络列表和资源池详情页面将显示VPC名称,单击后可以跳转至VPC详情页面。 图2 查找专属资源池 图3 查看网络配置 图4 打通VPC VPC下创建弹性云服务器 登录弹性云服务器ECS
-
准备资源 - AI开发平台ModelArts
Turbo间网络直通,以及配置ModelArts网络关联SFS Turbo。 具体操作请参见配置ModelArts和SFS Turbo间网络直通。 图3 ModelArts网络关联SFS Turbo 父主题: 准备工作
-
资源购买 - AI开发平台ModelArts
更加高效。在使用专属资源池之前,您需要先创建一个专属资源池,操作指导请参考创建专属资源池。 创建一个专属资源池前需要先创建网络,创建网络指导可参考创建网络。 购买Notebook存储 使用Notebook代码调试时,需要创建Notebook实例,如果创建时选择“云硬盘EVS”作为存储位置,会创建云硬盘EVS。
-
创建资源池 - AI开发平台ModelArts
d modelarts.vm.cpu.8ud 网络 - 表示服务实例运行在指定的网络中,可以与该网络中的其它云服务资源实例互通。 在下拉框中选择,如果没有可用网络,单击右侧的“创建”,创建一个可用的网络。创建网络相关可以参考创建网络章节。 规格管理 规格类型 请根据界面提示选择需
-
资源池介绍 - AI开发平台ModelArts
专属资源池为用户提供独立的计算集群、网络,不同用户间的专属资源池物理隔离,公共资源池仅提供逻辑隔离,专属资源池的隔离性、安全性要高于公共资源池。 专属资源池用户资源独享,在资源充足的情况下,作业是不会排队的;而公共资源池使用共享资源,在任何时候都有可能排队。 专属资源池支持打通用户的网络,在该专属资源
-
属性总览 - AI开发平台ModelArts
数生效。 否 str subnet_network_id 子网的网络ID,默认为空,当配置了vpc_id则此参数必填。需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 否 str security_group_id 安全组,
-
创建资源池 - AI开发平台ModelArts
相应规格资源数量。 表9 network 参数 是否必选 参数类型 描述 name 是 String 网络名称,即网络详情中的metadata.name字段的值。用户接口通过指定网络名称创建网络,系统会自动创建子网,用户无法创建子网。默认将创建在第一个子网下。 表10 PoolDriver
-
多机多卡数据并行-DistributedDataParallel(DDP) - AI开发平台ModelArts
创建分布式并行模型,每个进程都会有相同的模型和参数。 创建数据分发Sampler,使每个进程加载一个mini batch中不同部分的数据。 网络中相邻参数分桶,一般为神经网络模型中需要进行参数更新的每一层网络。 每个进程前向传播并各自计算梯度。 模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。 各GPU更新模型参数。
-
API概览 - AI开发平台ModelArts
说明 查询事件列表 查询事件列表。 表17 网络管理 API 说明 创建网络资源 创建网络资源。 查询网络资源列表 查询网络资源列表。 查询网络资源 查询指定网络资源的详情信息。 删除网络资源 删除指定网络资源。 更新网络资源 更新指定网络资源。 表18 资源指标管理 API 说明
-
GitHub开源仓库Clone - AI开发平台ModelArts
Clone仓库成功 异常处理 Clone仓库失败。可能是网络原因问题。可以在JupyterLab的Terminal中通过执行git clone https://github.com/jupyterlab/extension-examples.git测试网络连通情况。 图6 Clone仓库失败 如
-
DevServer资源配置 - AI开发平台ModelArts
DevServer资源配置 使用前须知 配置流程 网络访问 存储 环境配置 监控 父主题: 弹性裸金属DevServer