检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
Turbo文件系统与OBS桶的存储联动 概述 AI训练和推理、高性能数据预处理、EDA、渲染、仿真等场景下,您可以通过SFS Turbo文件系统来加速OBS对象存储中的数据访问。SFS Turbo文件系统支持无缝访问存储在OBS对象存储桶中的对象。您可以指定SFS Turbo内的目录与OBS
Attached Storage,NAS),可为云上多个弹性云服务器(Elastic Cloud Server,ECS),容器(Cloud Container Engine,CCE&Cloud Container Instance,CCI),裸金属服务器(Bare Metal Server,BMS)提供共享访问。
建议您规划好文件系统与业务的VPC,尽可能保证同VPC访问。 针对性能稳定性和延迟要求不高的场景,支持通过虚拟私有云的VPC对等连接功能,将同区域的两个或多个VPC互连以使这些VPC互通,则实际上不同的VPC便处于同一个网络中,归属于这些VPC下的云服务器也能共享访问同一个文件
SMB协议,可实现Windows系统主机之间的网络文件共享。它使得Windows客户端能够识别并访问网络中存储系统提供的共享资源,客户端用户能够像使用本机一样对保存在存储系统中的文件进行读、写、创建等操作。 SMB类型的文件系统不支持使用Linux操作系统的云服务器进行挂载。 W
SFS Turbo时延测试 本文以SFS Turbo性能增强型,云服务器规格如下为例说明。 规格:通用计算增强型 | c6.4xlarge.4 | 16vCPUs | 64GB 镜像:EulerOS 2.5 单队列随机读 fio命令: fio -direct=1 -iodepth=1
IAM权限是作用于云资源的,IAM权限定义了允许和拒绝的访问操作,以此实现云资源权限访问控制。管理员创建IAM用户后,需要将用户加入到一个用户组中,IAM可以对这个组授予SFS Turbo所需的权限,组内用户自动继承用户组的所有权限。 权限管理 父主题: 身份认证与访问控制
SFS Turbo时延测试 本文以SFS Turbo性能增强型,云服务器规格如下为例说明。 规格:通用计算增强型 | c6.4xlarge.4 | 16vCPUs | 64GB 镜像:EulerOS 2.5 单队列随机读 fio命令: fio -direct=1 -iodepth=1
SFS Turbo数据迁移实践方案概述 SFS Turbo默认只能被云上同一个VPC内的ECS/CCE访问,用户可通过云专线/VPN/对等连接等方式打通网络,实现多种访问方式。 云下或其他云访问: 云专线/VPN 云上同区域同一账号不同VPC: VPC对等连接 云上同区域跨账号访问:
包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API 网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础
创建与卸载SFS Turbo加密文件系统 创建加密文件系统 创建SFS Turbo加密文件系统时,则不需要授权。 可以新创建加密或者不加密的文件系统,无法更改已有文件系统的加密属性。 创建加密文件系统的具体操作请参见创建SFS Turbo文件系统。 卸载加密文件系统 如果加密文件
多个Web Server访问同一个SFS Turbo后台,实现网站业务的高可用。 配置流程 整理好网站文件。 登录高性能弹性文件服务控制台,创建一个SFS Turbo文件系统用于存放网站文件。 登录作为计算节点的云服务器,挂载文件系统。 通过头节点将需要上传的网站文件上传到挂载的文件系统。
50000×容量) 其中,容量单位为TB 通用测试配置样例 以下提供的预估值为单台弹性云服务器ECS测试的结果。建议使用多台ECS测试,以达到高性能弹性文件服务的性能指标。 本文以SFS Turbo性能型,云服务器规格如下为例说明。 规格:通用计算增强型 | c3.xlarge.4 | 4vCPUs
50000×容量) 其中,容量单位为TB 通用测试配置样例 以下提供的预估值为单台弹性云服务器ECS测试的结果。建议使用多台ECS测试,以达到高性能弹性文件服务的性能指标。 本文以SFS Turbo性能型,云服务器规格如下为例说明。 规格:通用计算增强型 | c3.xlarge.4 | 4vCPUs
文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行
PI请求将调用失败。每个接口所需要的权限,与各个接口所对应的授权项相对应,只有发起请求的用户被授予授权项所对应的策略,该用户才能成功调用该接口。例如,用户要调用接口来查询云服务器列表,那么这个IAM用户被授予的策略中必须包含允许“ecs:servers:list”的授权项,该接口才能调用成功。
通过网络让不同的机器、不同的操作系统能够彼此分享数据。多台ECS安装NFS客户端后,挂载文件系统,即可实现ECS间的文件共享。Linux客户端建议使用NFS协议。 删除子网 支持区域: 全部 挂载NFS文件系统到云服务器(Linux) 备份 备份是文件系统在某一时间点的完整备份,
数据保护技术 数据加密 高性能弹性文件服务支持服务器端加密功能,文件存储会对存储在文件系统中的数据进行加密,访问数据时,自动将加密数据解密后返回给用户。 具体使用方法请参见文件系统加密。 数据备份 备份是SFS Turbo文件系统在某一时间点的完整备份,记录了这一时刻文件系统的所
停止计费 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的高性能弹性文件服务、包年/包月的弹性云服务器等,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使
图1 排查思路 表1 排查思路 可能原因 处理措施 文件系统和挂载的服务器不在同一个可用区 在与服务器相同的可用区新建一个文件系统,将另一可用区的文件系统数据迁移至新文件系统后,再将新文件系统挂载至服务器。 使用场景与文件系统类型不匹配 结合业务场景,参考文件系统类型,选择正确的文件系统类型。