检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
最大容量(GB) 文件系统的最大使用容量。 加密 已经创建的文件系统的加密状态,包括“是”和“否”。 企业项目 文件系统归属的企业项目。 共享路径 文件系统的挂载路径。 计费模式 已经创建的文件系统的计费模式,包括“按需计费”和“包年/包月”。其中,按需计费模式同时展示创建文件系统的时间,包年/包月模式同时展示包年/包月到期时间
文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI
典型应用举例 高性能计算 企业网站/APP后台 日志打印
Turbo共享文件系统,并访问其中的数据。 登录ModelArts管理控制台,创建网络并打通创建资源中创建的创建虚拟私有云和子网,详细步骤参见ModelArts网络。 单击1中创建生成的资源池“网络”所在行的“更多”,选择“关联sfsturbo”。 在“关联sfsturbo”弹窗中,选择创建资源中创建的SFS
HPC型是按每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC性能不足时,需要通过容量扩容来提高性能吞吐。 OBS性能监控 您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入导出速度会受OBS服务的读写带宽上限Qo
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
IAM自定义策略授予IAM用户细粒度的SFS Turbo权限,用来控制文件系统的读写权限。 全部 备份SFS Turbo文件系统 备份是文件系统在某一时间点的完整备份,记录了这一时刻文件系统的所有配置数据和业务数据。当您的文件系统出现故障或文件系统中的数据发生逻辑错误等时,可快速使用备份恢复数据。
障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保存checkpoint时均直接持久化到存储系统,耗时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停,保存时间影响了训练过程的整体效
Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影
面向AI场景使用OBS+SFS Turbo的存储加速实践 面向AI场景使用OBS+SFS Turbo的存储加速方案概述 资源和成本规划 操作流程 实施步骤 常见问题
Unauthorized 被请求的页面需要用户名和密码。 403 Forbidden 对被请求页面的访问被禁止。 404 Not Found 服务器无法找到被请求的页面。 405 Method Not Allowed 请求中指定的方法不被允许。 406 Not Acceptable 服务器生成的响应无法被客户端所接受。
使用CES监控SFS Turbo文件系统 SFS Turbo监控指标说明 创建SFS Turbo告警规则 父主题: 监控与审计
创建VPC:创建1个虚拟私有云和子网。 创建SFS Turbo HPC型文件系统:创建1个SFS Turbo文件系统,文件系统类型选择“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 创建OBS桶:创建1个OBS桶,存储类别为“标准存储”,桶策略为“私有”。
扩容SFS Turbo文件系统 操作场景 当用户认为文件系统的容量不足时,用户可以通过执行扩容操作来增加文件系统的容量。 约束与限制 SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,正在挂载使用的连接会感知30秒左右的IO延迟(最长可能为3分钟),建议业务低峰
no_root_squash:客户端使用的是root用户时,映射到NFS服务器的用户依然为root用户。 root_squash:客户端使用的是root用户时,映射到NFS服务器的用户为NFS的匿名用户(nfsnobody)。 all_squash:默认选项。所有访问NFS服务器的客户端的用户都映射为匿名用户。'
HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击创建资源中创建的HPC型文件系统,进入文件系统详情页面。 进入页
训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。 您可通过查询联动任务详情接口查看导入任务的完成状态。 如果您觉得数据集规模较小或数据集变化不太频繁,不需要通过数据联动来做数据
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
则表示创建SFS Turbo文件系统成功。请求异常的返回值说明请参考对应API接口的异常返回值。其他的状态请参考SFS Turbo文件系统状态。 根据文件系统的id,可对SFS Turbo文件系统进行查询、删除等操作。 具体示例 在已获取token的前提下,curl命令创建SFS
noac表示禁止缓存,强制进行同步写。为了提高性能,NFS客户端缓存文件属性(默认ac),然后每隔一段时间去检查文件属性后更新。在缓存有效期内,客户端不检测服务器上文件属性是否改变。默认为ac,需要设置为noac。 lookupcache是和目录项缓存相关的一个参数,这个参数的取值可以是all,none,pos或者p