检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
加速保存与加载checkpoint 加速原理与安装AITurbo SDK 适配pytorch 父主题: AITurbo AI场景加速
AITurbo AI场景加速 加速保存与加载checkpoint 父主题: 数据管理
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
加速原理与安装AITurbo SDK 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期 checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训
适配pytorch Megatron框架的适配需要提前安装好pytorch及其依赖。 Megatron改动示例 设置环境变量,命令如下所示: AITURBO_BACKUP_ENABLE = True 环境变量“AITURBO_BACKUP_ENABLE”用于配置是否开启内存副本,
数据管理 扩容 存储联动 服务配额 AITurbo AI场景加速
约束与限制 表1 SFS Turbo文件系统限制 限制项 标准型、标准型-增强版、性能型、性能型-增强版 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB HPC缓存型 支持访问方式 VPN/专线/云连接
权限和授权项 权限及授权项说明 授权项分类
公共参数 SFS Turbo文件系统状态 SFS Turbo文件系统子状态
生命周期管理 创建文件系统 查询文件系统详细信息 删除文件系统 获取文件系统列表 扩容文件系统 父主题: API
共享标签 创建共享标签 查询共享标签 删除共享标签 批量添加共享标签 查询租户所有共享的标签 父主题: API
存储联动管理 绑定后端存储 查询后端存储列表 获取后端存储详细信息 删除后端存储 更新后端存储属性 更新后端存储自动同步策略 创建数据导入导出任务 查询数据导入导出任务详情 查询数据导入导出任务列表 删除数据导入导出任务 更新文件系统 父主题: API
挂载文件系统 挂载NFS协议类型文件系统到云服务器(Linux) 自动挂载文件系统 父主题: 挂载访问
网络管理 配置DNS
数据安全 加密 加密传输
规格类 在文件系统中存放的单个文件最大支持多少? 高性能弹性文件服务支持哪些访问协议? 每个账号最多可以创建多少个文件系统? 一个文件系统最多支持同时挂载到多少台云服务器上?
网络类 是否支持跨VPC访问文件系统? 高性能弹性文件服务支持跨区域挂载吗? VPC的安全组是否影响高性能弹性文件服务的使用? 同时挂载至两个服务器的文件系统数据存在延时怎么办?