检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
", "MA_EXTRA_TORCHRUN_PARAMS": "--rdzv_conf=timeout=7200" } 如果在torchrun初始化分布式一致性协商阶段出现“RuntimeError:Socket Timeout”错误时,可以通过增加如下环境变量再次创建训练作业以查看
kubectl get pod -A 图1 启动pod成功 执行如下命令查看pod日志,若打印类似下图信息表示服务启动成功。
表107 SSHResp 参数 参数类型 描述 key_pair_names Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。
kubectl get pod -A 图1 启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。
kubectl get pod -A 图1 启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。