检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo HPC型文件系统 创建SFS
您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
视化视图”请跳转至该步骤,如果选择“JSON视图”请跳转至该步骤。 在“策略内容”下配置策略。 选择“允许”。 选择云服务,勾选“虚拟私有云 (VPC)”。 选择“操作”,勾选写操作“vpc:ports:update”,勾选列表操作“vpc:ports:get”。 选择“所有资源”
时,弹性文件服务为您提供加密功能,可以对新创建的文件系统进行加密。 √ √ × 监控文件系统 云监控服务为用户提供一个针对资源的立体化监控平台。通过云监控,您可以全面了解文件系统的使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 √ √ √ 审计文件系统
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前
件夹中。上传方法请参考obsutil命令行工具使用指导。 OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案。 将数据从OBS预热到SFS Turbo中 SFS Turbo HPC型文件系统绑定OB
当客户端与服务端之间网络延迟较高(例如在线下IDC访问云上NFS文件系统和跨Region挂载NFS文件系统的场景下),且您需要达到较高的带宽或IOPS时,建议开启该功能; 开启nconnect后对于单并发、小IO数据块等场景会有一定的时延增加,当您的业务为小并发的延迟敏感型时,不建议开启该功能;
100 CREATING,正在创建。 200 ACTIVE,激活状态,SFS Turbo文件系统可挂载。 300 FAILED,失败。 303 CREATE_FAILED,创建失败。 400 DELETED,已删除。 800 FROZEN,已冻结。 父主题: 公共参数
提供多个业务节点提供共享的日志输出目录,方便分布式应用的日志收集和管理。业务特点: 多个业务主机挂载同一个共享文件系统,并发打印日志。 大文件小I/O:单个日志文件比较大,但是每次日志的写入I/O比较小。 写I/O密集型:业务以小块的写I/O为主。 配置流程 登录弹性文件服务控制台,创建一个SFS
share对象的列表。 share字段说明: 参数 参数类型 描述 links Array 共享链接。 availability_zone String 可用区AZ(availability zone)。 share_server_id String 共享服务管理的ID share_network_id
twork Attached Storage,NAS),可为云上多个弹性云服务器(Elastic Cloud Server,ECS),容器(Cloud Container Engine,CCE&Cloud Container Instance,CCI),裸金属服务器(Bare Metal
Turbo文件系统进行缩容操作,可以通过购买小容量的新文件系统再将原文件系统数据进行手动迁移,实现“缩容”。 通用文件系统无容量限制,不支持容量调整。 调整须知 SFS容量型文件系统调整规则如下: 增加容量规则 扩容后的文件系统的总容量<=(云账号的配额容量-该云账号下其他文件系统的总容量之和) 例如,云账号A默认
2.5 单队列随机读 fio命令: fio -direct=1 -iodepth=1 -rw=randread -ioengine=libaio -bs=4k -size=10G -numjobs=1 -runtime=60 -group_reporting -filename=
请求消息 参数说明 无 请求样例 无 响应消息 参数说明 参数 参数类型 描述 availability_zones Array of objects availability_zone列表 availability_zone 字段说明: 参数 参数类型 描述 id String 可用区的ID。
String job执行失败时的错误码 fail_reason String job执行失败时的错误原因 sub_jobs Array of GetSubJobDetail objects 子任务列表 表5 GetSubJobDetail 参数 参数类型 描述 status String
日志存储、文件共享、内容管理、网站 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 大规模AI训练、AI大模型、AIGC 大规模AI训练、AI大模型、AIGC 表3 SFS Turbo上一代文件系统