检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的“更多 > 查看监控指标”。 您可以选择监控指标项或者监控时间段,查看对应的弹性文件服务监控数据。 关于云监控的其他操作和更多信息,请参考《云监控服务用户指南》。 图1 SFS容量型监控图表 图2 通用文件系统监控图表 父主题: 监控
监控 弹性文件服务监控指标说明 SFS Turbo监控指标说明 创建告警规则
监控安全风险 SFS提供基于云监控服务CES的资源监控能力,帮助用户监控账号下的文件存储系统的使用情况,执行自动实时监控、告警和通知操作。用户可以实时监控弹性文件服务的客户端连接数、带宽、IOPS、容量等信息。 关于SFS支持的监控指标,以及如何创建监控告警规则等内容,请参见监控。
EFS”,在文件系统列表中,单击待查看监控数据的文件系统“操作”列下的“查看监控指标”。 您可以选择监控指标项或者监控时间段,查看对应的SFS Turbo监控数据。 关于云监控的其他操作和更多信息,请参考《云监控服务用户指南》。 图1 SFS Turbo监控图表 父主题: 监控
面向AI场景使用OBS+SFS Turbo的存储加速实践 方案概述 资源和成本规划 操作流程 实施步骤 常见问题
警。可单击“选择排除资源”排除不需要监控的资源。 选择“指定资源”时,在“监控对象”单击“选择指定资源”进行指定资源的选择。 全部资源 分组 当告警类型选择指标,且监控范围选择资源分组时需配置此参数。 - 监控对象 当告警类型选择指标,且监控范围选择指定资源时需配置此参数。 - 事件类型
图2 加载checkpoint流程 安装AITurbo SDK 请提交工单获取AITurbo SDK的安装包huawei_aiturbo_xxx.whl(xxx为具体版本号信息),并上传到环境。 安装AITurbo SDK依赖包。 AITurbo SDK依赖rpyc,setpr
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。
Turbo容量监控及告警。 SFS Turbo性能监控。 调整SFS Turbo数据淘汰策略。 SFS Turbo容量及性能扩容。 OBS性能监控。 如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过方案咨询渠道,寻求专业人员支持。 父主题: 面向AI场景使用OBS+SFS
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。
Turbo监控指标说明和创建告警规则。 SFS Turbo性能监控 您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
安装fio 以Linux CentOS系统为例说明: 在官网下载fio。 yum install fio 安装libaio引擎。 yum install libaio-devel 查看fio版本。 fio --version 文件系统性能数据 SFS Turbo文件系统的性能主要
Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。
物理独享:存储池物理隔离,资源独享。 备份恢复 专属文件存储服务支持CBR备份,基于备份可以恢复文件存储系统。 监控文件系统 对接云监控,支持带宽、IOPS、容量等多种监控指标。 审计文件系统 支持通过云审计服务对资源的操作进行记录,以便用户可以查询、审计和回溯。 性能规格 表1 性能规格
进行管理,例如对文件系统的网络进行配置、监控文件系统的使用状态等。 常用操作 管理文件系统 容量调整 网络配置 配置多VPC 配置多账号访问 配置DNS 资源管理 加密文件系统 备份文件系统 性能测试 迁移数据 监控与审计 查看支持的监控指标 创建告警规则 查看审计日志 02 购买