检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Turbo文件系统中也可以参考本方案,云上NAS和SFS Turbo文件系统需要配置在同一个VPC下。 约束与限制 支持拷贝特殊文件,如连接文件、设备等。 支持单文件断点续传。 支持保持原文件或目录的权限、时间、软硬链接、属主、组等所有属性。 支持使用rcp、rsh、ssh等方式来配合传输文件。
耗时,实现checkpoint秒级同步保存,避免训练任务长时间阻塞,异步保存阶段,主节点持久化过程中,内存中写入了相同检查点的备节点会持续监控主节点的保存结果。保存失败之后,备节点会接管主节点的持久化操作,代替主节点将检查点持久化下去,保证可靠性。 图1 保存checkpoint流程
冷)数据淘汰时间的API请参考更新文件系统。 如果SFS Turbo文件系统存储空间写满,会影响业务运行,建议在云监控服务CES上配置SFS Turbo已用容量的监控告警。 当触发容量阈值告警时请手动缩短数据淘汰时间,例如从60小时配置成40小时,加速(冷)数据淘汰,或者对SFS