检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Token认证:通过Token认证调用请求。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。推荐使用AK/SK认证,其安全性比Token认证要高。 Token认证 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。
Turbo提供的SDK语言版本,列举了最新版本SDK的获取地址。 在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 表1提供了SFS Turbo服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。
不需要通过数据联动来做数据导入导出,您可借助外部工具将数据从OBS迁移到SFS Turbo中,操作指导请参考OBS和SFS之间的数据迁移,推荐使用obsutil工具。 父主题: 训练
跨服务器迁移(rclone工具) 方案概述 用户可以将本地NAS存储中的数据,使用rclone工具通过公网或内网迁移至云上SFS Turbo中,进行云上业务拓展。 此方案通过在云上和本地分别创建一台Linux操作系统的服务器,将本地NAS存储中的数据迁移至云上。两台服务器端口号2
实际情况选择合适的方式,并参考对应指导文档中的上传/下载相关章节完成数据迁移。 不同方式支持的操作系统、迁移数据量、操作简易程度存在差异,推荐您使用obsutil工具进行数据迁移。 为了节省您的开支,建议您配置内网DNS,通过华为云内网完成数据迁移。具体配置方法,请参见通过内网访问OBS。
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
销。 nodiratime 如果不需要记录目录的访问时间,可以设置该参数。避免频繁访问时,修改访问时间带来的开销。 没有“使用建议”的参数推荐使用默认参数。 挂载完成后,执行如下命令,查看已挂载的文件系统。 mount -l 如果回显包含如下类似信息,说明挂载成功。 挂载地址 on
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
9、2051、2052、20048。如您需要修改开放的端口,可以前往“网络控制台 > 访问控制 > 安全组”找到目标安全组进行修改即可。 推荐SFS Turbo实例使用单独的安全组,与业务节点隔离。 SFS容量型文件系统的安全组需要用户自行添加对应的入方向和出方向访问规则,配置方
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
方案概述 应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
例行维护 SFS Turbo容量监控及告警 如果SFS Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
华南-深圳、西南-贵阳一。 停售影响 正式停售后,用户将无法再新购买SFS Turbo 标准型、标准型-增强版、性能型、性能型增强版规格,推荐您在相应区域购买SFS Turbo其他规格文件系统:20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/T