-
GPU A系列裸金属服务器RoCE性能带宽测试指导
-
网络配置
-
训练作业运行失败,出现NCCL报错
的网卡名称。“NCCL_SOCKET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入,由于通信网卡名称不固定,因此训练代码不应默认设置该环境变量。 环境变量NCCL_IB_TIMEOUT用于控制InfiniBand Verbs超时。NCCL使用的默认值为18,取值范围是1~22。
来自:帮助中心 -
怎样检查IB云服务器的网络是否正常?
安装。 检查IB云服务器的网卡状态是否正常。 登录弹性云服务器。 执行以下命令,查看IB云服务器的网卡状态是否正常。 ibstat 是,执行2。 否,请联系客服寻求技术支持。 检查IB云服务器之间,网络通信是否正常。 登录其中一台IB云服务器,并执行以下命令。 ib_write_bw
来自:帮助中心 -
重建裸金属服务器
-
日志提示“no socket interface found”
-
在HPC集群上运行IB驱动自带的OpenMPI
-
弹性网卡概述
-
安装并配置虚拟机(Linux)
-
创建支持IB网卡的弹性云服务器
-
一种高性能计算和数据中心网络架构:InfiniBand(IB),低延迟、高带宽、可扩展性!
-
制作镜像流程
-
修订记录
-
STAR-CCM+安装与运行
-
备份与恢复灾难恢复
-
弹性云服务器场景典型应用
-
在HPC集群上运行MPI应用(X86 BMS场景)
-
在HPC集群上运行MPI应用(鲲鹏BMS场景)
-
在HPC集群上运行MPI应用
-
安装和使用MPI(X86 BMS场景)
-
STAR-CCM+启动相关问题
![](https://res-static.hc-cdn.cn/cloudbu-site/china/zh-cn/components/thumbnail/retry.png)