检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
安装fio 以Linux CentOS系统为例说明: 在官网下载fio。 yum install fio 安装libaio引擎。 yum install libaio-devel 查看fio版本。 fio --version 文件系统性能数据 SFS Turbo文件系统的性能主要
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。
安装fio 以Linux CentOS系统为例说明: 在官网下载fio。 yum install fio 安装libaio引擎。 yum install libaio-devel 查看fio版本。 fio --version 通用测试配置样例 以下提供的预估值为单台弹性云服务器E
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,
allows to avoid `Too many authentication failures for *username*` errors when the ssh-agent contains many keys. Enter a boolean value (true or
Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
res/detail sfs:shares:getAllSharesDetail √ √ 查询单个共享详细信息 (OpenStack原生) GET /v2/{project_id}/shares/{share_id} sfs:shares:getShareDetail √ √ 查询共享挂载路径
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
参数类型 描述 resource_id String 资源ID resource_name String 资源名称 resource_detail String 资源详情 tags Array of ResourceTag objects 资源的标签列表 表9 ResourceTag
查询资源实例数量 功能介绍 根据标签查询资源实例数量。 URI POST /v3/sfs/tms/{project_id}/file-systems/resource-instances/count 参数说明 参数 是否必选 参数类型 描述 project_id 是 String
您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
总记录数。 表6 resource 参数 是否必选 参数类型 描述 resource_id 是 String 资源ID。 resource_detail 是 Object 资源详情。默认为空。 资源对象,用于扩展。 tags 是 List<resource_tag> 标签列表。没有标签默认为空数组。
图2 加载checkpoint流程 安装AITurbo SDK 请联系技术支持获取AITurbo的安装包aiturbo_xxx.whl(xxx为AITurbo组件信息及版本号信息),并上传到环境。 安装AITurbo依赖包。 AITurbo依赖rpyc,setproctitl
根据标签查询共享实例个数 功能介绍 根据标签查询共享个数。 URI POST /v2/{project_id}/sfs/resource_instances/action 参数说明 参数 是否必选 参数类型 描述 project_id 是 String 操作用户的项目ID,获取方法请参见获取项目ID。
数。 resource 字段数据结构说明 参数 参数类型 描述 resource_id String 共享ID。 resource_detail Object 资源详情。资源对象,用于扩展。默认为空。 tags Array of resource_tags 标签列表,没有标签时默认为空数组。