检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
高吞吐的数据访问挑战:随着企业使用 GPU/NPU 越来越多,底层存储的 IO 已经跟不上计算能力,企业希望存储系统能提供高吞吐的数据访问能力,充分发挥 GPU/NPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对
ion programming interface)管理方式或管理控制台方式均可访问高性能弹性文件服务。 API方式 如果用户需要将云服务平台上的高性能弹性文件服务集成到第三方系统,用于二次开发,请使用API方式访问高性能弹性文件服务,具体操作请参见《高性能弹性文件服务API参考》。
工作负荷下低时延的需求。 某生物平台需要软件进行大量的基因测序,但业务处理步骤多,业务部署慢,流程复杂,效率低,易出错,所以自建集群跟不上业务发展。但自从使用了提供专业的高性能计算业务流程管理软件,依托云平台的海量计算资源和存储资源,充分结合云平台和高性能计算特点,大大降低初始投
Turbo文件系统,以实现多个云服务器共享使用SFS Turbo文件系统的目的。 以root用户登录弹性云服务器 ECS。可以通过管理控制台或跨平台远程访问工具(例如PuTTY)登录已购买的ECS。 安装NFS客户端。 安装NFS客户端。 执行如下命令查看系统(此处以CentOS为例)是否安装NFS软件包。
的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。
文件系统加密 扩容 用户可以通过执行扩容操作来增加文件系统的容量。 支持区域: 全部 扩容文件系统 监控 云监控服务为用户提供一个针对资源的立体化监控平台。通过云监控,您可以全面了解文件系统的使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 支持区域: 全部 SFS Turbo监控指标说明
登录管理控制台,选择区域和Project。 选择“计算 > 弹性云服务器”,进入管理控制台。 以root用户登录弹性云服务器。可以通过管理控制台或跨平台远程访问工具(例如PuTTY)登录。 若以非root用户登录弹性云服务器,具体操作请参考非root普通用户挂载文件系统。 安装NFS客户端。
管理服务配额 什么是配额? 为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少个文件系统。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额? 登录管理控制台。 单击管理控制台左上角的,选择区域。 在页面右上角,选择“资源
查询后端存储列表 功能介绍 查询后端存储列表 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。
获取后端存储详细信息 功能介绍 获取后端存储详细信息 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。 调试 您可以在API Expl
绑定后端存储 功能介绍 为SFS Turbo 文件系统绑定后端存储 接口约束 该接口仅适用于SFS Turbo 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统。请求体参数file
用户可以通过执行扩容操作来增加文件系统的容量。 全部 使用CES监控SFS Turbo文件系统 云监控服务为用户提供一个针对资源的立体化监控平台。通过云监控,您可以全面了解文件系统的使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。 全部 使用CTS审计SFS
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化