检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
None 服务介绍 弹性文件服务 SFS 视频介绍 01:54 弹性文件服务SFS介绍 云容器引擎 CCE 简介 07:25 云容器引擎简介 云容器引擎 CCE 服务介绍 03:23 云容器引擎服务介绍 操作指导 弹性文件服务 SFS 创建并挂载文件系统到Linux云服务器 05:22
概念类 什么是弹性文件服务? 什么是SFS Turbo? SFS、OBS和EVS有什么区别?
涉及音视频数据的存储、调用和管理,根据其业务特性对共享的文件系统有如下要求: 媒体素材的视频码率高,文件规模大,要求文件系统容量大且易于扩展。 音视频的采集、编辑、合成等应用要求文件系统无抖动、低时延。 多用户同时进行编辑制作,要求文件系统提供稳定易用的数据共享。 视频渲染、特
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
图2 加载checkpoint流程 安装AITurbo SDK 请联系技术支持获取AITurbo的安装包aiturbo_xxx.whl(xxx为AITurbo组件信息及版本号信息),并上传到环境。 安装AITurbo依赖包。 AITurbo依赖rpyc,setproctitl
"dss:*:count" √ √ 查询所有文件系统详细信息 GET /v1/{project_id}/sfs-turbo/shares/detail sfsturbo:shares:getAllShares - √ √ 查询单个文件系统详细信息 GET /v1/{project_id
SFS Turbo文件系统 管理SFS Turbo文件系统与OBS桶的存储联动 目录配额 加密传输 文件系统权限管理 通过AITurbo加速保存与加载checkpoint
res/detail sfs:shares:getAllSharesDetail √ √ 查询单个共享详细信息 (OpenStack原生) GET /v2/{project_id}/shares/{share_id} sfs:shares:getShareDetail √ √ 查询共享挂载路径
应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。
可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
SFS Turbo性能型-增强版:图片渲染、AI训练、企业办公OA 125MB/s/TiB:高性能计算、AI训练、EDA仿真、自动驾驶、渲染 250MB/s/TiB:高性能计算、AI训练、EDA仿真、自动驾驶、渲染 HPC缓存型:影视渲染、AI训练、自动驾驶 支持区域: 全部 文件系统类型
等。 说明: 高性能计算:主要是高带宽的需求,用于共享文件存储,比如基因测序、图片渲染这些。 如大数据分析、静态网站托管、在线视频点播、基因测序和智能视频监控等。 如高性能计算、企业核心集群应用、企业应用系统和开发测试等。 说明: 高性能计算:主要是高速率、高IOPS的需求,用于
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
请求消息 参数说明 无 请求样例 无 响应消息 参数说明 参数 参数类型 描述 availability_zones Array of objects availability_zone列表 availability_zone 字段说明: 参数 参数类型 描述 id String 可用区的ID。
您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS
Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。