AI开发平台MODELARTS-MXNet创建kvstore时程序被阻塞,无报错:处理方法

时间:2024-11-22 17:40:39

处理方法

将如下代码放在“启动文件”“import mxnet”之前可以看到节点间相互通信状态,同时ps能够重新发送。

import os
os.environ['PS_VERBOSE'] = '2'
os.environ['PS_RESEND'] = '1'

其中,“os.environ['PS_VERBOSE'] = '2'”为打印所有的通信信息。“os.environ['PS_RESEND'] = '1'”为在“PS_RESEND_TIMEOUT”毫秒后没有收到ACK消息,Van实例会重发消息。

support.huaweicloud.com/trouble-modelarts/modelarts_13_0026.html