检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 排查思路 表1 排查思路 可能原因 处理措施 文件系统和挂载的服务器不在同一个可用区 在与服务器相同的可用区新建一个文件系统,将另一可用区的文件系统数据迁移至新文件系统后,再将新文件系统挂载至服务器。
nt秒级同步保存,避免训练任务长时间阻塞,异步保存阶段,主节点持久化过程中,内存中写入了相同检查点的备节点会持续监控主节点的保存结果。保存失败之后,备节点会接管主节点的持久化操作,代替主节点将检查点持久化下去,保证可靠性。 图1 保存checkpoint流程 加速加载checkpoint
操作用户的项目ID share_id 是 String 共享ID key 是 String 标签的键,最大长度128个字符。 key不能为空,不能包含非打印字符ASCII(0-31),“=”,“*”,“<”,“>”,“\”,“,”,“|”,“/”。只能包含大写字母、小写字母、数字,特殊字符"-"和"_"。
Turbo会在文件系统根目录下以该名称创建一个子目录,该目录用于绑定后端存储。 必须是文件系统根目录下不存在的目录名,长度不能超过63个字符,子目录名称不能是“.”或“..”。 不支持多层目录,不能包含字符'/'。 obs 是 ObsDataRepository object OBS类型后端存储 表4