-
在Lite资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts
olcano调度器的安装升级请参见Volcano调度器。仅华为云版Volcano插件支持开启路由加速特性。 训练使用的Python版本是3.7或3.9,否则无法实现ranktable路由加速。 训练作业的任务节点数要大于或等于3,否则会跳过ranktable路由加速。建议在大模型
-
如何设置SSH免密登录 - AI开发平台ModelArts
如何设置SSH免密登录 本文介绍如何设置SSH免密登录。 操作步骤 客户端生成公私钥。 执行如下命令,在本地客户端生成公私钥(一路回车默认即可)。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub”(公钥)和“id_rsa”(私钥),可通过如下命令查看:
-
基于SFS创建、迁移和管理Conda虚拟环境 - AI开发平台ModelArts
/home/ma-user/anaconda3 PyTorch-1.8 /home/ma-user/anaconda3/envs/PyTorch-1.8 python-3.7.10 /home/ma-user/anaconda3/envs/python-3
-
如何在Notebook开发环境中配置Conda源 - AI开发平台ModelArts
使用-n指定环境,install及update命令使用-c指定源地址 conda install -n myenv numpy #在myenv的环境中安装名字为numpy的package conda install -c https://conda.anaconda.org/anaconda
-
如何给镜像设置环境变量 - AI开发平台ModelArts
如何给镜像设置环境变量 在Dockerfile中,可使用ENV 指令来设置环境变量,具体信息请参考Dockerfile指导。 父主题: FAQ
-
GP Ant1裸金属服务器支持的镜像详情 - AI开发平台ModelArts
Ant1裸金属服务器支持的镜像详情 镜像:EulerOS纯净版 镜像名称:EulerOS2.10 x86 64bit sdi3 for Ant1 BareMetal 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 64bit 架构类型 x86 RoCE路由配置 不支持自动配置,需创建后手动配置。
-
单EIP实现多节点的SSH登录和外网访问 - AI开发平台ModelArts
弹性公网IP:勾选创建的弹性公网IP。 图2 配置SNAT参数 单击“确定”。 Step3:配置DNAT规则 通过添加DNAT规则,则可以通过映射方式为VPC内的Server提供SSH访问服务,一个Server的一个端口对应一条DNAT规则,一个端口只能映射到一个EIP,不能映射到多个EIP。
-
配额说明 - AI开发平台ModelArts
配额说明 本服务应用的基础设施如下: 弹性云服务器 云硬盘 虚拟私有云 云容器引擎 其配额查看及修改请参见关于配额。
-
关闭和开启RoCE网卡网口 - AI开发平台ModelArts
关闭和开启RoCE网卡网口 场景描述 本文介绍如何在裸金属服务器上关闭(设置link status为DOWN)和开启RoCE网卡网口(设置link status为UP)。 关闭昇腾RoCE网卡网口 查询网卡状态: hccn_tool -i 0 -link -g 网卡down: hccn_tool
-
NPU Snt9B裸金属服务器docker网络配置方案 - AI开发平台ModelArts
中分配一个IP给容器使用,并设置docker0的IP地址为容器的默认网关。 docker0概念介绍:Docker服务默认会创建一个docker0网桥,它在内核层连通了其他的物理或虚拟网卡,将所有容器和本地主机都放到同一个物理网络。Docker服务默认指定了docker0接口的IP
-
GP Ant8裸金属服务器支持的镜像详情 - AI开发平台ModelArts
v.2.13.6 docker 20.10.23 RoCE路由配置 支持 镜像3:Ubuntu20.04 纯净版 镜像名称:Ubuntu 20.04 x86 64bit SDI3 for Ant8 BareMetal 表3 镜像详情 软件类型 版本详情 操作系统 Ubuntu 20
-
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts
nfs-common 获取SFS Turbo的挂载命令。 进入弹性文件服务SFS管理控制台。 选择“SFS Turbo”进入文件系统列表,单击文件系统名称,进入详情页面。 在“基本信息”页签获取并记录“Linux挂载命令”。 在ECS服务器中挂载NFS存储。 首先保证对应目录存在,然后输入对应指令即可。命令参考:
-
GP Vnt1裸金属服务器的Docker模式环境搭建 - AI开发平台ModelArts
GP Vnt1裸金属服务器的Docker模式环境搭建 场景描述 本文指导如何在Vnt1裸金属服务器上安装Docker环境(服务器系统需为Ubuntu18.04或Ubuntu20.04)。 操作步骤 NVIDIA驱动安装。 wget https://us.download.nvidia
-
GP Vnt1裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 - AI开发平台ModelArts
/dev/nvme3n1 创建vg(卷组Volume Group将两块pv组成一个组),路径信息使用命令“fdisk -l”查询。 vgcreate nvme_group /dev/nvme0n1 /dev/nvme1n1 /dev/nvme2n1 /dev/nvme3n1 创建lv(逻辑卷logical
-
GPU A系列裸金属服务器RoCE性能带宽测试 - AI开发平台ModelArts
确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B:客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果
-
NPU Snt9B如何快速使用Container-NPU模式 - AI开发平台ModelArts
--device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \
-
推理服务支持虚拟私有云(VPC)直连的高速访问通道 - AI开发平台ModelArts
使用专属资源池部署在线服务,服务状态为“运行中”。 需使用新版专属资源池部署服务,详情请参见ModelArts资源池管理功能全面升级。 只有专属资源池部署的服务才支持VPC直连的高速访问通道。 VPC直连的高速访问通道,目前只支持访问在线服务。 因流量限控,获取在线服务的IP和端口号次
-
GPU A系列裸金属服务器更换NVIDIA和CUDA - AI开发平台ModelArts
GPU A系列裸金属服务器更换NVIDIA和CUDA 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
-
GP Ant8裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 - AI开发平台ModelArts
nvme2n1、/dev/nvme1n1、/dev/nvme4n1、/dev/nvme5n1、/dev/nvme6n1、/dev/nvme3n1、/dev/nvme7n1)。 创建pv(物理卷physical volume基本存储逻辑块)。 依次执行以下命令: pvcreate /dev/nvme0n1
-
如何访问ModelArts - AI开发平台ModelArts
AI开发平台ModelArts”直接登录管理控制台。如果未注册,请参见如何注册华为云管理控制台的用户?。 SDK方式 如果您需要将ModelArts集成到第三方系统,用于二次开发,可选择调用SDK方式完成目的。ModelArts的SDK是对ModelArts服务提供的REST API进行的Python封装