AI开发平台MODELARTS-网卡名称错误
网卡名称错误
当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。
比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。
export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称, export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称
关于环境变量的解释可以参考:Distributed communication package - torch.distributed — PyTorch 2.3 documentation
- VPC弹性网卡_云上的服务器可以添加虚拟网卡吗_扩展网卡-华为云
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts分布式训练_分布式训练介绍_分布式调测
- 物联网是指什么_物联网应用平台有哪些_物联网卡购买平台
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- GaussDB集群搭建_SQL数据库是谁发明的_高斯数据库集群搭建_华为云
- 私有云平台的搭建
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像