检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
面向AI场景使用OBS+SFS Turbo的存储加速实践 面向AI场景使用OBS+SFS Turbo的存储加速方案概述 资源和成本规划 操作流程 实施步骤 常见问题
该指标用于统计文件系统已用容量。 单位:byte ≥ 0 bytes 高性能弹性文件服务 1分钟 used_capacity_percent 容量使用率 该指标用于统计文件系统已用容量占总容量的比例。 单位:百分比 0 - 100% 高性能弹性文件服务 1分钟 used_inode 已用inode数
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
I训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训练任务,训练速度加快可以节省AI算力费用。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。 父主题: 面向AI场景使用OBS+SFS
持以邮箱、短信、HTTP、HTTPS等方式通知用户,让用户在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。 云监控使用消息通知服务向用户通知告警信息。首先,您需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,您需要开
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS Turbo存储空间、或缩短
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
如果用户需要将云服务平台上的高性能弹性文件服务集成到第三方系统,用于二次开发,请使用API方式访问高性能弹性文件服务,具体操作请参见《高性能弹性文件服务API参考》。 管理控制台方式 非API方式,请使用管理控制台方式访问高性能弹性文件服务。
配置ModelArts和SFS Turbo间网络直通 创建委托授权ModelArts云服务使用SFS Turbo 使用IAM管理员账号登录IAM控制台。 在IAM控制台的左侧导航窗格中选择“权限管理 > 权限”。 配置调用SFS Turbo接口的自定义策略: 单击右上角的“创建自定义策略”,进入自定义策略配置页面。
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
现象描述 使用mount命令挂载文件系统到云服务器,云服务器提示“access denied”,挂载失败。 可能原因 原因1:文件系统已被删除。 原因2:执行挂载命令的云服务器和被挂载的文件系统不在同一VPC下。 原因3:挂载命令中的挂载地址输入错误。 原因4:访问文件系统使用的DNS错误。
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击
方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影响,默认是16Gbit/s,如果大模型训练生成的Che
il命令行工具使用指导。 OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案。 将数据从OBS预热到SFS Turbo中 SFS Turbo HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。
文件系统挂载超时 现象描述 使用mount命令挂载文件系统到云服务器,云服务器系统提示“timed out”。 可能原因 原因1:网络状态不稳定。 原因2:网络连接异常。 定位思路 排除网络问题后,重试挂载命令。 解决方法 原因1和原因2:网络状态不稳定;网络连接异常。 修复网络,网络修复完成后重新执行挂载。
noresvport 指定NFS客户端向NFS服务端重新发起建立连接时使用新的TCP端口。 强烈建议使用 noresvport 参数,这可以保障网络发生故障恢复事件后文件系统服务不会中断。 lock/nolock 选择是否使用NLM协议在服务器上锁文件。当选择nolock选项时,锁对于同
如何从云服务器访问SFS Turbo文件系统? 要访问您的文件系统,如果是Linux云服务器,您需要在Linux云服务器上安装NFS客户端后使用挂载命令挂载文件系统或使用正确的用户和权限,直接输入SMB文件系统的挂载地址,挂载SMB类型的文件系统。挂载完成后,可共享您的文件系统中的文件和目录。 SFS