检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
在云服务器上挂载并使用SFS Turbo文件系统(Linux) 操作场景 如果您想访问SFS Turbo文件系统数据和实现共享访问,您需要先创建SFS Turbo文件系统,并在多个云服务器上完成挂载操作。 本章节介绍如何在SFS Turbo控制台创建NFS协议的SFS Turbo文件系统,并将SFS
挂载SFS Turbo文件系统到Linux云服务器 当创建文件系统后,您需要使用云服务器来挂载该文件系统,以实现多个云服务器共享使用文件系统的目的,本文将介绍如何挂载文件系统到ECS上。 裸金属服务器、容器(CCE&CCI)操作与弹性云服务器(ECS)挂载操作一致。挂载至CCE:
管理SFS Turbo文件系统与OBS桶的存储联动 概述 AI训练和推理、高性能数据预处理、EDA、渲染、仿真等场景下,您可以通过SFS Turbo文件系统来加速OBS对象存储中的数据访问。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象。您可以指定SFS T