检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
计费说明 SFS容量型文件系统计费项 默认为按需计费模式。即创建文件系统免费,按实际使用的存储容量和时长收费,以小时为单位,按每小时整点结算,不设最低消费标准。结算时,时长不足1小时的,按1小时计费。计费模型如表1所示。 表1 计费模型 资费项 计费项 计费公式 存储空间计费 文件系统所占用的存储空间容量和使用时长
SFS Turbo性能测试 fio是一个开源的I/O压力测试工具,可以使用fio工具对SFS进行吞吐量和IOPS的性能测试。 前提条件 已在云服务器上安装fio工具。fio可从官网或GitHub下载。 注意和说明 测试性能依赖client和server之间的网络带宽及文件系统的容量大小。
按需计费适用于具有不能中断的短期、突增或不可预测的应用或服务,例如电商抢购、临时测试、科学计算。 适用计费项 SFS容量型 默认为按需计费模式。即创建文件系统免费,按实际使用的存储容量和时长收费,以小时为单位,按每小时整点结算,不设最低消费标准。结算时,时长不足1小时的,按1小时计费。 表1 SFS容量型计费模型
SFS Turbo性能测试 fio是一个开源的I/O压力测试工具,可以使用fio工具对SFS进行吞吐量和IOPS的性能测试。 前提条件 已在云服务器上安装fio工具。fio可从官网或GitHub下载。 注意和说明 测试性能依赖client和server之间的网络带宽及文件系统的容量大小。
加速原理与安装AITurbo SDK 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期 checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训
加速保存与加载checkpoint 加速原理与安装AITurbo SDK 适配pytorch 父主题: AITurbo AI场景加速
跨服务器迁移(rclone工具) 方案概述 用户可以将本地NAS存储中的数据,使用rclone工具通过公网或内网迁移至云上SFS Turbo中,进行云上业务拓展。 此方案通过在云上和本地分别创建一台Linux操作系统的服务器,将本地NAS存储中的数据迁移至云上。两台服务器端口号2
适配pytorch Megatron框架的适配需要提前安装好pytorch及其依赖。 Megatron改动示例 设置环境变量,命令如下所示: AITURBO_BACKUP_ENABLE = True 环境变量“AITURBO_BACKUP_ENABLE”用于配置是否开启内存副本,
AITurbo AI场景加速 加速保存与加载checkpoint 父主题: SFS Turbo文件系统
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
方案概述 应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
例行维护 SFS Turbo容量监控及告警 如果SFS Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。