检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
跨服务器迁移(rclone工具) 方案概述 用户可以将本地NAS存储中的数据,使用rclone工具通过公网或内网迁移至云上SFS Turbo中,进行云上业务拓展。 此方案通过在云上和本地分别创建一台Linux操作系统的服务器,将本地NAS存储中的数据迁移至云上。
父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
Step3 挂载文件系统 登录ECS。可以通过管理控制台或跨平台远程访问工具(例如PuTTY)登录已购买的ECS。 图3 登录ECS 查看ECS是否安装NFS客户端。执行命令:rpm -qa|grep nfs。 图4 查看ECS是否安装NFS客户端 挂载文件系统。
为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。
父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击创建资源中创建的HPC型文件系统,进入文件系统详情页面。 进入页签“绑定后端存储”,单击“绑定OBS桶”。 图1 绑定OBS桶 在右侧弹窗“绑定OBS桶”中,填写如下表所示参数。
配置ModelArts和SFS Turbo间网络直通 创建委托授权ModelArts云服务使用SFS Turbo 使用IAM管理员账号登录IAM控制台。 在IAM控制台的左侧导航窗格中选择“权限管理 > 权限”。
父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
当收到容量监控告警时,您需要及时清理SFS Turbo存储空间、或缩短冷数据淘汰时间加速冷数据淘汰、或对SFS Turbo进行空间扩容。详情可参见SFS Turbo监控指标说明和创建告警规则。
具体地,对于训练中进程级故障、硬件仍然健康的故障场景,主机侧客户端内存缓存仍会保留,本机缓存中的checkpoint仍可正常访问,此时可从主机侧客户端内存中直接加载checkpoint进行原地秒级快速恢复;为避免所有GPU/NPU卡同时从存储中加载checkpoint致使存储带宽成为拥塞瓶颈
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态
登录Imagenet数据集下载官网地址,下载Imagenet21k数据集:http://image-net.org/。
父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
登录已创建的本地服务器client1,执行以下命令,用于访问本地NAS存储。
登录SFS管理控制台。 在文件系统列表中,单击创建的HPC型文件系统名称,进入文件系统详情页面。 在“基本信息”页签,设置冷数据淘汰时间。 图1 设置冷数据淘汰时间 只有已经导出到OBS且满足淘汰时间的数据才会被淘汰。 父主题: 基本配置