-
网络配置
-
GPU A系列裸金属服务器RoCE性能带宽测试指导
-
怎样检查IB云服务器的网络是否正常?
安装。 检查IB云服务器的网卡状态是否正常。 登录弹性云服务器。 执行以下命令,查看IB云服务器的网卡状态是否正常。 ibstat 是,执行2。 否,请联系客服寻求技术支持。 检查IB云服务器之间,网络通信是否正常。 登录其中一台IB云服务器,并执行以下命令。 ib_write_bw
来自:帮助中心 -
在ModelArts创建分布式训练时如何设置NCCL环境变量?
NCCL_IB_TIMEOUT 18 用于控制IB通信超时时间,算法为“4.096 µs * 2 ^ timeout”。如出现NCCL通信超时问题可适当调大,最大可调整至22。较大的值可能会影响性能,设置为18相对平衡。 NCCL_IB_RETRY_CNT 15 IB通信重试次数
来自:帮助中心 -
训练作业运行失败,出现NCCL报错
-
重建裸金属服务器
-
日志提示“no socket interface found”
-
弹性网卡概述
-
安装并配置虚拟机(Linux)
-
在HPC集群上运行IB驱动自带的OpenMPI
-
一种高性能计算和数据中心网络架构:InfiniBand(IB),低延迟、高带宽、可扩展性!
-
创建支持IB网卡的弹性云服务器
-
修订记录
-
制作镜像流程
-
STAR-CCM+安装与运行
-
备份与恢复灾难恢复
-
弹性云服务器场景典型应用
-
在HPC集群上运行MPI应用(X86 BMS场景)
-
在HPC集群上运行MPI应用(鲲鹏BMS场景)
-
在HPC集群上运行MPI应用
-
安装和使用MPI