检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
父主题: 存储联动管理
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。
SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。 登录SFS管理控制台。
选择云服务,勾选“虚拟私有云 (VPC)”。 选择“操作”,勾选写操作“vpc:ports:update”,勾选列表操作“vpc:ports:get”。 选择“所有资源” 图2 创建委托授权ModelArts云服务使用VPC 在“策略内容”区域,填写以下授权语句。
请根据实际的业务情况,阅读存储管理-CSI-存储概述或存储管理-Flexvolume-极速文件存储卷,并在CCE界面完成部署操作。 父主题: 其他类
可以直接从云下访问弹性文件服务吗? SFS Turbo支持通过IDC专线或其他方式建立通信后,可以从云下访问SFS Turbo文件系统。 SFS容量型文件系统暂不支持直接从云下访问弹性文件服务,但您可以将数据从云下迁移至弹性文件服务后再使用。 父主题: 其他类
OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案。
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态
DNS服务器东北区IP地址为100.125.6.250,其它区域详情请参见华为云内网DNS地址。配置完成后,单击“确定”,完成配置。 图6 Windows系统配置DNS 父主题: 网络配置
应用场景 华为云通用文件系统和SFS Turbo提供各种规格的文件存储,您可以根据业务需求选择其中一种或几种文件系统,为业务运转提供必要的可靠性、安全性和持续性。 您可以根据以下文件存储的对比情况,选用适合您业务场景的文件系统或提交工单联系技术支持人员支撑您的选择。
低频存储具有以下优势: 配置简单,无须编写脚本或手动迁移数据 您只需设置生命周期规则,通用文件系统会自动将符合生命周期规则的数据转储至低频存储,无须复杂、高风险的数据迁移操作。 成本低 低频存储相比普通文件存储的费用低。 低频存储的计费相关内容请详见计费项。
已经获取到本地NAS存储的挂载地址。 操作步骤 登录弹性云服务器管理控制台。 登录已创建好的Linux系统云服务器,用于同时访问本地NAS存储和云上SFS Turbo文件系统。 输入以下挂载命令,用于访问本地NAS存储。
此方案通过在云上创建一台Linux操作系统的云服务器,来连接本地NAS存储以及云上SFS Turbo文件系统的通信,并通过这台服务器将本地NAS存储中的数据迁移至云上。
本地服务器用于访问本地NAS存储,云上服务器用于访问云上SFS Turbo。 通过公网将云上NAS存储数据迁移至SFS Turbo中也可以参考本方案完成。 约束与限制 暂不支持使用公网迁移本地NAS存储至SFS容量型文件系统。 仅支持使用Linux系统的云服务器进行数据迁移。
将SFS Turbo挂载至CCE:请参考存储管理-CSI-存储概述或存储管理-Flexvolume-极速文件存储卷,并在CCE界面完成SFS Turbo部署至CCE的操作。 通用文件系统暂不支持挂载至32位的Linux系统云服务器。
当发生故障,训练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。
本地服务器用于访问本地NAS存储,云上服务器用于访问云上SFS Turbo。 通过公网或内网将云上NAS存储数据迁移至SFS Turbo中也可以参考本方案完成。 约束与限制 暂不支持使用公网迁移本地NAS存储至SFS容量型文件系统。