检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,
图2 加载checkpoint流程 安装AITurbo SDK 请联系技术支持获取AITurbo的安装包aiturbo_xxx.whl(xxx为AITurbo组件信息及版本号信息),并上传到环境。 安装AITurbo依赖包。 AITurbo依赖rpyc,setproctitl
外添加VPC ReadOnlyAccess系统策略。 登录管理控制台 打开华为云网站www.huaweicloud.com。 注册账号。 使用弹性文件服务前需注册一个华为账号并开通华为云。该账号可访问华为云的所有服务,包括弹性文件服务器。如果您已有账号,请从3开始。 在页面右侧,单击“注册”。
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS
S,且ECS归属到已创建的VPC下。 如果无ECS,可参考《弹性云服务器快速入门》中的“购买弹性云服务器”章节购买ECS。 操作步骤 登录华为云控制台。 登录管理控制台。 单击管理控制台左上角的,选择区域和项目。 选择“网络 > VPC终端节点 > 终端节点”。 在“终端节点”页面,单击“购买终端节点”。
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
联动目录名称 failure_details FailureDetailsMessage object 绑定错误信息 lifecycle String 绑定状态 obs ObsDataRepository object OBS类型后端存储 表5 FailureDetailsMessage
联动目录名称 failure_details FailureDetailsMessage object 绑定错误信息 lifecycle String 绑定状态 obs ObsDataRepository object OBS类型后端存储 表7 FailureDetailsMessage
share对象的列表。 share字段说明: 参数 参数类型 描述 links Array 共享链接。 availability_zone String 可用区AZ(availability zone)。 share_server_id String 共享服务管理的ID share_network_id
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前
image-net.org/。 下载格式转换后的annotation文件:ILSVRC2021winner21k_whole_map_train.txt和ILSVRC2021winner21k_whole_map_val.txt。 下载完成后将上述3个文件数据上传至OBS桶中的i
描述 target_id String 绑定关系id creation_time String 绑定关系创建时间 failure_details FailureDetailsMessage object 绑定错误信息 file_system_path String 联动目录名称 lifecycle
字段;否则不返回。 version String SFS Turbo文件系统的版本号。 avail_capacity String SFS Turbo文件系统剩余容量,单位GB。 availability_zone String SFS Turbo文件系统所在可用区编码。 az_name
100 CREATING,正在创建。 200 ACTIVE,激活状态,SFS Turbo文件系统可挂载。 300 FAILED,失败。 303 CREATE_FAILED,创建失败。 400 DELETED,已删除。 800 FROZEN,已冻结。 父主题: 公共参数
字段;否则不返回。 version String SFS Turbo文件系统的版本号。 avail_capacity String SFS Turbo文件系统剩余容量,单位GB。 availability_zone String SFS Turbo文件系统所在可用区编码。 az_name
Object share对象 share字段说明: 参数 参数类型 描述 links Array 共享链接。 availability_zone String 可用区AZ(availability zone)。 share_server_id String 共享服务管理的ID share_network_id