检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
监控 弹性文件服务监控指标说明 SFS Turbo监控指标说明 创建告警规则
的“更多 > 查看监控指标”。 您可以选择监控指标项或者监控时间段,查看对应的弹性文件服务监控数据。 关于云监控的其他操作和更多信息,请参考《云监控服务用户指南》。 图1 SFS容量型监控图表 图2 通用文件系统监控图表 父主题: 监控
EFS”,在文件系统列表中,单击待查看监控数据的文件系统“操作”列下的“查看监控指标”。 您可以选择监控指标项或者监控时间段,查看对应的SFS Turbo监控数据。 关于云监控的其他操作和更多信息,请参考《云监控服务用户指南》。 图1 SFS Turbo监控图表 父主题: 监控
监控安全风险 SFS提供基于云监控服务CES的资源监控能力,帮助用户监控账号下的文件存储系统的使用情况,执行自动实时监控、告警和通知操作。用户可以实时监控弹性文件服务的客户端连接数、带宽、IOPS、容量等信息。 关于SFS支持的监控指标,以及如何创建监控告警规则等内容,请参见监控。
警。可单击“选择排除资源”排除不需要监控的资源。 选择“指定资源”时,在“监控对象”单击“选择指定资源”进行指定资源的选择。 全部资源 分组 当告警类型选择指标,且监控范围选择资源分组时需配置此参数。 - 监控对象 当告警类型选择指标,且监控范围选择指定资源时需配置此参数。 - 事件类型
应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。
Turbo监控指标说明和创建告警规则。 SFS Turbo性能监控 您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS
Turbo容量监控及告警。 SFS Turbo性能监控。 调整SFS Turbo数据淘汰策略。 SFS Turbo容量及性能扩容。 OBS性能监控。 如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过方案咨询渠道,寻求专业人员支持。 父主题: 面向AI场景使用OBS+SFS
图2 加载checkpoint流程 安装AITurbo SDK 请提交工单获取AITurbo SDK的安装包huawei_aiturbo_xxx.whl(xxx为具体版本号信息),并上传到环境。 安装AITurbo SDK依赖包。 AITurbo SDK依赖rpyc,setpr
物理独享:存储池物理隔离,资源独享。 备份恢复 专属文件存储服务支持CBR备份,基于备份可以恢复文件存储系统。 监控文件系统 对接云监控,支持带宽、IOPS、容量等多种监控指标。 审计文件系统 支持通过云审计服务对资源的操作进行记录,以便用户可以查询、审计和回溯。 性能规格 表1 性能规格
进行管理,例如对文件系统的网络进行配置、监控文件系统的使用状态等。 常用操作 管理文件系统 容量调整 网络配置 配置多VPC 配置多账号访问 配置DNS 资源管理 加密文件系统 备份文件系统 性能测试 迁移数据 监控与审计 查看支持的监控指标 创建告警规则 查看审计日志 02 购买
可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
安装fio 以Linux CentOS系统为例说明: 在官网下载fio。 yum install fio 安装libaio引擎。 yum install libaio-devel 查看fio版本。 fio --version 文件系统性能数据 SFS Turbo文件系统的性能主要
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。