检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
加速原理与安装AITurbo SDK 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期 checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
创建文件系统 创建文件系统,在多个云服务器中挂载使用,实现文件系统的共享访问。可创建SFS容量型、SFS Turbo和通用文件系统三种不同类型的文件系统。 前提条件 创建SFS Turbo、SFS容量型和通用文件系统前,确认已有可用的VPC。 如果无VPC,可参考《虚拟私有云用户
Header中携带签名 通用文件系统的所有API接口都可以通过在header中携带签名方式来进行身份认证。 在Header中携带签名是指将通过HTTP消息中Authorization header头域携带签名信息,消息头域的格式为: Authorization: OBS AccessKeyID:signature
查询共享详细信息 功能介绍 查询共享详细信息。 URI GET /v2/{project_id}/shares/{share_id} 参数说明 参数 是否必选 参数类型 描述 share_id 是 String 共享的ID。 project_id 是 String 操作用户的项目ID,获取方法请参见获取项目ID。
方案概述 应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的
修改共享信息 功能介绍 修改共享的描述和名称信息。 URI PUT /v2/{project_id}/shares/{share_id} 参数说明 参数 是否必选 参数类型 描述 share_id 是 String 共享的ID。 project_id 是 String 操作用户的项目ID,获取方法请参见获取项目ID。
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
SFS Turbo快速入门 本节通过调用SFS Turbo的API接口创建SFS Turbo文件系统,展示如何使用API接口。 通过IAM服务获取到的Token有效期为24小时,需要使用同一个Token鉴权时,可以先将Token缓存,避免频繁调用。 涉及API 当您使用Token
容量调整 操作场景 当用户认为文件系统的容量不足或太大时,用户可以通过执行扩容或缩容操作来增加或者缩减文件系统的容量。 约束与限制 SFS容量型文件系统支持在线容量调整,容量调整时对业务无任何影响。并且扩容时文件系统必须处于运行中状态。 SFS Turbo文件系统支持在线扩容,扩
备份 目前仅SFS Turbo文件系统支持使用CBR备份,SFS容量型/通用文件系统暂不支持使用CBR备份。 现已上线新版备份功能,原历史备份将会被系统自动清除,请您及时前往云备份界面完成数据备份,以免造成不必要的数据丢失。 操作场景 备份是SFS Turbo文件系统在某一时间点
基本概念 账号 用户注册时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用用户进行日常管理工作。 用户 由账号在IAM中创建的用户,是云服务的
弹性文件服务会占用用户的哪些资源? 为保证文件系统能够正常使用,弹性文件系统将会占用用户以下资源。 SFS容量型/通用文件系统: 创建文件系统时,会在用户填写的安全组下,开通111、445、2049、2051、2052端口的入规则。默认的源地址为0.0.0.0/0,用户后续可根据自己的实际情况,修改该地址。
应用场景 华为云通用文件系统和SFS Turbo提供各种规格的文件存储,您可以根据业务需求选择其中一种或几种文件系统,为业务运转提供必要的可靠性、安全性和持续性。 您可以根据以下文件存储的对比情况,选用适合您业务场景的文件系统或提交工单联系技术支持人员支撑您的选择。 通用文件系统
查询后端存储列表 功能介绍 查询后端存储列表 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
绑定后端存储 功能介绍 为SFS Turbo 文件系统绑定后端存储 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。请求体参数file
计费项 弹性文件服务不同类型的文件系统,如SFS容量型文件系统、通用文件系统、SFS Turbo文件系统都可按需计费。SFS容量型文件系统、通用文件系统、SFS Turbo文件系统计费项都是存储空间费用;其中SFS Turbo文件系统的HPC缓存型除存储空间计费外,还可以按“带宽大小”计费项来计费。
生命周期管理 低频存储 通用文件系统支持通过配置生命周期规则,将设定时间内通用文件系统文件转换为低频存储,从而节约成本。 低频存储具有以下优势: 配置简单,无须编写脚本或手动迁移数据 您只需设置生命周期规则,通用文件系统会自动将符合生命周期规则的数据转储至低频存储,无须复杂、高风险的数据迁移操作。
获取后端存储详细信息 功能介绍 获取后端存储详细信息 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。 调试 您可以在API Expl