检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 排查思路 表1 排查思路 可能原因 处理措施 配额不足 已创建的文件系统数量已经达到配额上限,请提交工单申请扩大配额。
参考创建SFS Turbo文件系统。 创建OBS桶 创建OBS桶,存储类别为“标准存储”,桶策略为“私有”,操作指导请参考创建OBS桶。 创建ModelArts资源池 以常见的专属资源池为例,专属资源池提供独享的计算资源,可用于Notebook、训练作业、部署模型。专属资源池不与
资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。
可能原因 处理措施 文件系统和挂载的服务器不在同一个可用区 在与服务器相同的可用区新建一个文件系统,将另一可用区的文件系统数据迁移至新文件系统后,再将新文件系统挂载至服务器。 使用场景与文件系统类型不匹配 结合业务场景,参考文件系统类型,选择正确的文件系统类型。 并发数过高或过低
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
存储联动 概述 AI训练和推理、高性能数据预处理、EDA、渲染、仿真等场景下,您可以通过SFS Turbo文件系统来加速OBS对象存储中的数据访问。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象。您可以指定SFS Turbo内的目录与OBS对象存储桶进行关联
存储联动管理 绑定后端存储 查询后端存储列表 获取后端存储详细信息 删除后端存储 创建数据导入导出任务 查询数据导入导出任务详情 查询数据导入导出任务列表 更新文件系统 父主题: API
dir_mode 否 Integer 导入的目录权限。取值范围是0到777。 第一位表示目录所有者的权限,第二位表示目录所属用户组的权限,第三位表示其他用户的权限。目录所有者由uid指定,目录所属用户组由gid指定,不是目录所有者且不在目录所属用户组的用户为其他用户。 例如:755中第一
否 Boolean 删除后端存储时是否同时删除文件系统内的联动目录及其数据文件,默认为 false。数据删除后无法恢复,请谨慎操作。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 账号的token Content-Type
dir_mode Integer 导入的目录权限。取值范围是0到777。 第一位表示目录所有者的权限,第二位表示目录所属用户组的权限,第三位表示其他用户的权限。目录所有者由uid指定,目录所属用户组由gid指定,不是目录所有者且不在目录所属用户组的用户为其他用户。 例如:755中第一
dir_mode Integer 导入的目录权限。取值范围是0到777。 第一位表示目录所有者的权限,第二位表示目录所属用户组的权限,第三位表示其他用户的权限。目录所有者由uid指定,目录所属用户组由gid指定,不是目录所有者且不在目录所属用户组的用户为其他用户。 例如:755中第一
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,在时延、带宽等存储性能上无法满足高性能AI训练,建议使用SFS Turbo
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
其余参数配置请参考创建训练作业根据您的自身情况选择。 资源池:专属资源池,选择创建资源中创建的ModelArts资源池。 SFS Turbo:增加挂载配置,选择创建资源中创建的SFS Turbo HPC型文件系统。 单击“提交”,完成训练作业的创建。 训练作业创建完成后,后台将自
您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入导出速度会受OBS服务的读写带宽上限QoS影响,默认是16Gbit/s,如果导入导出速度受到OBS读写带宽上限影响,可提交工单联系技术支持人员申请调大OBS服务的读写带宽。 父主题: 实施步骤
IOPS=min{20k,DSS存储池可用IOPS} 存储池可用带宽和IOPS,与存储容量成正比例关系。在购买专属弹性文件服务,规划DSS专属存储资源时,需要为专属弹性文件服务预留对应的容量和性能,避免出现容量或性能不足,影响专属文件存储服务。 在“性能规格”中,带宽值和IOPS值为“{}”中的最小值。