检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
其他操作 SFS Turbo性能测试 使用非root的普通用户挂载文件系统到Linux云服务器 挂载NFS文件系统子目录到云服务器(Linux) 数据迁移
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
文件系统配额管理 默认情况下,SFS对文件系统的使用容量是没有限制的。为了让用户对容量和资源进行合理的分配和管理,通用文件系统支持对文件系统进行配额管理,包括设置配额、删除配额。 通用文件系统设置配额包括设置容量配额和文件数限制。 约束限制 由于配额的校验依赖于文件系统存量,而文