检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Cloud Server,ECS) 挂载NFS文件系统到云服务器(Linux) 云容器引擎提供高度可扩展的、高性能的企业级Kubernetes集群,支持运行Docker容器。借助云容器引擎,您可以在云上轻松部署、管理和扩展容器化应用程序。 您可以使用高性能弹性文件服务作为容器的持久化
用了多台计算机集群的计算机系统和环境。能够执行一般个人电脑无法处理的大资料量与高性能的运算。高性能计算具有超高浮点计算能力,可用于解决计算密集型、海量数据处理等业务的计算需求,如应用于工业设计CAD/CAE,生物科学,能源勘探,图片渲染和异构计算等涉及高性能计算集群来解决大型计算
监控与审计 使用CES监控SFS Turbo文件系统 使用CTS审计SFS Turbo文件系统
的一个IP,可能导致客户端与服务端的网络连接分布不均,从而无法充分利用服务端分布式集群能力。 当客户端数量较少时,如果希望最大限度地利用文件系统性能,一种有效的方法是为每个客户端指定一个不同的服务端IP地址进行挂载。通过这种方式,可以更均匀地分布客户端与服务端的网络连接,从而更有效地利用服务端资源,提高系统性能。
身份认证与访问控制 服务的访问控制 父主题: 安全
Turbo文件系统与OBS桶的存储联动 概述 AI训练和推理、高性能数据预处理、EDA、渲染、仿真等场景下,您可以通过SFS Turbo文件系统来加速OBS对象存储中的数据访问。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象。您可以指定SFS Turbo内的目录与OBS
约束与限制 命名类限制 表1 命名类限制 限制项 说明 SFS Turbo文件系统名称 创建的文件系统名称只能由英文字母、数字、下划线和中划线组成,输入长度需大于等于4个字符并小于等于64个字符,并以字母开头。 标签的键 标签的“键”最大长度为128个字符,可以包含任意语种的字母、数字和空格,以及_
可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区
统,耗时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停,保存时间影响了训练过程的整体效率。当发生故障,训练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大
户加入到一个用户组中,IAM可以对这个组授予SFS Turbo所需的权限,组内用户自动继承用户组的所有权限。 权限管理 父主题: 身份认证与访问控制
可用区(AZ,Availability Zone) 一个可用区是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 区域默认对应一个项目,这个项目由系统预置
进入监控图表页面。 入口一:选择“存储 > 弹性文件服务”,在文件系统列表单击查看监控数据的文件系统“操作”列下的“监控”。 入口二:选择“管理与监管 > 云监控服务> 云服务监控 > 弹性文件服务Turbo EFS > 资源详情”,在文件系统列表中,单击待查看监控数据的文件系统“操作”列下的“查看监控指标”。
Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据
创建与卸载SFS Turbo加密文件系统 创建加密文件系统 创建SFS Turbo加密文件系统时,则不需要授权。 可以新创建加密或者不加密的文件系统,无法更改已有文件系统的加密属性。 创建加密文件系统的具体操作请参见创建SFS Turbo文件系统。 卸载加密文件系统 如果加密文件
、1000MB/s/TiB、HPC缓存型(停售)。 说明: 为了最大限度提升SFS Turbo集群性能,20MB/s/TiB、40MB/s/TiB等规格的文件系统使用多个ip来均衡集群负载。 选择标准型。 说明: 创建成功后不支持更换存储类型,如需更换只能新创建另一存储类型的文件系统,请根据业务情况事先规划存储类型。
使用CES监控SFS Turbo文件系统 SFS Turbo监控指标说明 创建SFS Turbo告警规则 父主题: 监控与审计
创建SFS Turbo告警规则 告警功能提供对监控指标的告警功能,用户可以对高性能弹性文件服务的核心监控指标设置告警规则,当监控指标触发用户设置的告警条件时,支持以邮箱、短信、HTTP、HTTPS等方式通知用户,让用户在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。
sfs_turbo deleteShare 查看追踪事件 登录管理控制台。 在管理控制台左上角单击图标,选择区域。 选择“服务列表 > 管理与监管 > 云审计服务”,进入云审计服务信息页面。 单击左侧导航树的“事件列表”,进入事件列表信息页面。 在过滤条件查询框中,依次选择“事件来源
使用CTS审计SFS Turbo文件系统 支持审计的关键操作 查询SFS Turbo审计事件 父主题: 监控与审计
Turbo监控指标说明和创建告警规则。 SFS Turbo性能监控 您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS