-
GPU裸金属服务器无法Ping通的解决方案 - AI开发平台ModelArts
GPU裸金属服务器无法Ping通的解决方案 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命
-
Atlas800训练服务器硬件指南 - AI开发平台ModelArts
插在主板上的。 ifconfig能看到的网卡信息吗 能看到主板上的网卡信息,即VPC分配的私有IP。若要看RoCE网卡的命令需要执行“hccn_tools”命令查看,参考Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考中的指导。 NPU上的网卡在哪里可以看到,
-
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts
据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。 操作步骤 在ECS服务器中设置华为云镜像源。 sudo sed -i
-
同步裸金属服务器状态 - AI开发平台ModelArts
同步裸金属服务器状态 当用户在云服务器页面修改了裸金属服务器状态后,可同步其状态至ModelArts的弹性裸金属实例。 登录ModelArts管理控制台。 在左侧导航栏中,选择“专属资源池 > 弹性裸金属”,进入“弹性裸金属”列表页面。 在弹性裸金属列表中,单击操作列的“同步”,
-
GP Vnt1裸金属服务器的Docker模式环境搭建 - AI开发平台ModelArts
GP Vnt1裸金属服务器的Docker模式环境搭建 场景描述 本文指导如何在Vnt1裸金属服务器上安装Docker环境(服务器系统需为Ubuntu18.04或Ubuntu20.04)。 操作步骤 NVIDIA驱动安装。 wget https://us.download.nvidia
-
裸金属服务器存储指南 - AI开发平台ModelArts
裸金属服务器存储指南 裸金属服务器结合OBS、SFS两种云存储服务,提供了多种场景下的存储解决方案。两种存储类型对比可参考SFS和OBS的区别。 1、弹性文件服务SFS 提供按需扩展的高性能文件存储(NAS),可为云上多个裸金属服务器(BMS)提供共享访问。 购买指南 挂载指南 服务器重启后自动挂载指南
-
VS Code手动连接Notebook - AI开发平台ModelArts
自定义设置的云上开发环境名称。 HostName: 云上开发环境的访问地址,即在开发环境实例页面远程访问模块获取的访问地址。例如:dev-modelarts-cnnorth4.huaweicloud.com Port: 云上开发环境的端口,即在开发环境实例页面远程访问模块获取的端口号。
-
GPU A系列裸金属服务器RoCE性能带宽测试 - AI开发平台ModelArts
$res 上述获取的值*4/300 ,即为当前网卡的接收速率,单位Byte/s。 方法2:使用ib_write_bw测试RDMA的读写处理确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B:客户端向服务端mlx4_0网卡发送数据。
-
GPU A系列裸金属服务器更换NVIDIA和CUDA - AI开发平台ModelArts
emory四个软件。 但是如果nvidia和cuda是使用runfile(local)方式安装的,那么需要在下一步中再次卸载。 若使用nvidia run包直接安装的驱动,需要找到对应的卸载命令。 sudo /usr/bin/nvidia-uninstall sudo /usr/local/cuda-11
-
申请购买专属昇腾AI云服务器 - AI开发平台ModelArts
通过提交ModelArts Lite的算力预购申请,申请合适的算力资源用于创建专属资源池。 当ModelArts Lite的算力预申请审批通过后,需要尽快购买ModelArts Lite的专属池进行使用。 登录AI Gallery,单击右上角“我的Gallery”进入我的Gallery页面。 左侧菜单栏选择“申请管理
-
GPU裸金属服务器环境配置 - AI开发平台ModelArts
GPU裸金属服务器环境配置 GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7 GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4 GP Vnt1裸金属服务器的Docker模式环境搭建 GP Ant8裸金属服务器Ubuntu
-
GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 470+CUDA 11.3 - AI开发平台ModelArts
安装nvidia-fabricmanager。 Ant系列GPU支持NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。 fabricmanager版本一定要和nvidia驱动版本必须保持一致。
-
GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 525+CUDA 12.0 - AI开发平台ModelArts
NCCL_ALGO=RING :nccl_test的总线bandwidth是在假定是Ring算法的情况下计算出来的。 计算公式是有假设的: 总线带宽 = 算法带宽 * 2 ( N-1 ) / N ,算法带宽 = 数据量 / 时间 但是这个计算公式的前提是用Ring算法,Tree算法的总线带宽不能这么算。 如
-
GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA 515+CUDA 11.7 - AI开发平台ModelArts
NCCL_ALGO=RING :nccl_test的总线bandwidth是在假定是Ring算法的情况下计算出来的。 计算公式是有假设的: 总线带宽 = 算法带宽 * 2 ( N-1 ) / N ,算法带宽 = 数据量 / 时间 但是这个计算公式的前提是用Ring算法,Tree算法的总线带宽不能这么算。 如
-
单EIP绑定裸金属服务器 - AI开发平台ModelArts
单EIP绑定裸金属服务器 弹性公网IP支持与单个裸金属服务器绑定实现公网访问和SSH登录,具体步骤可参考绑定弹性公网IP至服务器。 父主题: 网络访问
-
GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7 - AI开发平台ModelArts
NVIDIA的驱动程序是一个二进制文件,需使用系统中的libelf库(在elfutils-libelf-devel开发包)中。它提供了一组C函数,用于读取、修改和创建ELF文件,而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。 安装过程中的提示均选OK
-
GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4 - AI开发平台ModelArts
pytorch -c nvidia python 验证torch与cuda的安装状态,输出为True即为正常。 import torch print(torch.cuda.is_available()) 父主题: GPU裸金属服务器环境配置
-
本地IDE(SSH工具连接) - AI开发平台ModelArts
address):云上开发环境Notebook实例的访问地址,即在Notebook实例详情页获取的地址。例如:dev-modelarts-cnnorth4.huaweicloud.com。 Port:云上Notebook实例的端口,即在Notebook实例详情页获取的端口号。例如:32701。 Connection
-
NPU Snt9B裸金属服务器docker网络配置方案 - AI开发平台ModelArts
Namespace。容器将不会虚拟出自己的网卡,配置自己的IP等,而是使用宿主机的IP和端口,此时容器不再拥有隔离的、独立的网络栈,不拥有所有端口资源。 使用host模式后,无需再对容器做端口映射,同时,容器就和宿主机共用网络,容器中的网络服务也可以访问到宿主机的网络服务。 桥接模式(Bridge)
-
NPU Snt9B裸金属服务器多机免密互通解决方案 - AI开发平台ModelArts
ssh-keygen默认使用RSA算法,长度为2048位,执行完后会在用户目录下的.ssh文件夹创建rsa密钥类型的一个公钥和一个私钥,如下图。 图3 .ssh文件夹 传输公钥。 执行如下命令,将server1的公钥上传到server2的root用户下,会在server2的/root/.ssh目录下生成一个authorized_keys文件