检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 分布式训练时共享内存不足导致训练失败 NPU:RoCE网卡down RoCELinkStatusDown 重要 NPU 卡 %d RoCE Link 状态Down
json配置文件default-shm-size字段 方式二: docker run 命令中使用 --shm-size 参数来设置单个容器的共享内存大小 分布式训练时共享内存不足导致训练失败 NPU:RoCE网卡down RoCELinkStatusDown 重要 NPU 卡 %d RoCE Link 状态Down