AI开发平台MODELARTS-附录:训练常见问题:问题4:Error waiting on exit barrier错误

时间:2024-11-12 16:42:44

问题4:Error waiting on exit barrier错误

错误截图:

报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。

解决措施:

修改容器内torch/distributed/elastic/agent/server/api.py文件参数:

vim /home/ma-user/anaconda3/envs/PyTorch-2.2.0/lib/python3.10/site-packages/torch/distributed/elastic/agent/server/api.py

修改def _exit_barrier(self)方法中的barrier_timeout参数,修改后如图1所示。

#修改前
barrier_timeout=self._exit_barrier_timeout
#修改后
barrier_timeout=3000
图1 修改后的barrier_timeout参数
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_90936.html