检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
int 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保
文件系统挂载超时 现象描述 使用mount命令挂载文件系统到云服务器,云服务器系统提示“timed out”。 可能原因 原因1:网络状态不稳定。 原因2:网络连接异常。 定位思路 排除网络问题后,重试挂载命令。 解决方法 原因1和原因2:网络状态不稳定;网络连接异常。 修复网络,网络修复完成后重新执行挂载。
此方案通过创建一台Linux操作系统的云服务器,来连接SFS容量型文件系统和SFS Turbo文件系统的通信。 约束与限制 仅支持使用Linux系统的云服务器进行数据迁移。 Linux系统云服务器、SFS容量型文件系统和SFS Turbo文件系统需在同一VPC下。 支持实现增量迁移,即只迁移发生变化的数据。
Turbo文件系统前,确认已有可用的ECS,且ECS归属到已创建的VPC下。 如果无ECS,可参考《弹性云服务器快速入门》中的“购买弹性云服务器”章节购买ECS。 创建SFS Turbo文件系统,依赖的服务有:虚拟私有云 VPC、费用中心 BSS、专属存储服务 DSS和弹性云服务器 ECS。需要配置的角色/策略如下:
登录已创建好的Linux系统云服务器。 在目的端服务器执行以下命令,验证文件同步情况。 cd /mnt/dst ls | wc -l 数据量与源端服务器中的一致时,表示数据迁移成功。 云上NAS数据迁移至高性能弹性文件服务 云上NAS和SFS Turbo文件系统只需配置在同一个VPC下,或
用户可以将本地NAS存储中的数据,通过云专线迁移至云上SFS Turbo文件系统中,进行云上业务拓展。 此方案通过在云上创建一台Linux操作系统的云服务器,来连接本地NAS存储以及云上SFS Turbo文件系统的通信,并通过这台服务器将本地NAS存储中的数据迁移至云上。 将云上NAS存储数据迁移至SFS Turb
noresvport,nolock,tcp 文件系统挂载地址 /mnt/dst 在Linux云服务器中执行以下命令安装rsync工具。 yum install rsync 图1 安装rsync工具 源端服务器和目的端服务器均需要安装rsync工具,否则将会报错。 安装完成后,可以输入以下命令查询rsync工具的安装和版本情况。
Attached Storage,NAS),可为云上多个弹性云服务器(Elastic Cloud Server,ECS),容器(Cloud Container Engine,CCE&Cloud Container Instance,CCI),裸金属服务器(Bare Metal Server,BMS)提供共享访问。
50000×容量) 其中,容量单位为TB 通用测试配置样例 以下提供的预估值为单台弹性云服务器ECS测试的结果。建议使用多台ECS测试,以达到高性能弹性文件服务的性能指标。 本文以SFS Turbo性能型,云服务器规格如下为例说明。 规格:通用计算增强型 | c3.xlarge.4 | 4vCPUs
SFS Turbo时延测试 本文以SFS Turbo性能增强型,云服务器规格如下为例说明。 规格:通用计算增强型 | c6.4xlarge.4 | 16vCPUs | 64GB 镜像:EulerOS 2.5 单队列随机读 fio命令: fio -direct=1 -iodepth=1
50000×容量) 其中,容量单位为TB 通用测试配置样例 以下提供的预估值为单台弹性云服务器ECS测试的结果。建议使用多台ECS测试,以达到高性能弹性文件服务的性能指标。 本文以SFS Turbo性能型,云服务器规格如下为例说明。 规格:通用计算增强型 | c3.xlarge.4 | 4vCPUs
SFS Turbo时延测试 本文以SFS Turbo性能增强型,云服务器规格如下为例说明。 规格:通用计算增强型 | c6.4xlarge.4 | 16vCPUs | 64GB 镜像:EulerOS 2.5 单队列随机读 fio命令: fio -direct=1 -iodepth=1
存储(NAS),可为云上多个弹性云服务器ECS,容器CCE&CCI,裸金属服务器BMS提供共享访问。 如何迁移? SFS Turbo的文件系统需要挂载到弹性云服务器、容器或裸金属服务器上,对于SFS Turbo和OBS之间的数据迁移,可以理解为服务器与OBS或者容器与OBS之间的
移至云上。两台服务器端口号22的出入方向需允许访问。本地服务器用于访问本地NAS存储,云上服务器用于访问云上SFS Turbo。 通过公网或内网将云上NAS存储数据迁移至SFS Turbo中也可以参考本方案完成。 约束与限制 仅支持使用Linux系统的云服务器进行数据迁移。 文件
高性能弹性文件服务(Scalable File Service Turbo,SFS Turbo)提供按需扩展的高性能文件存储,支持同时为多个弹性云服务器(Elastic Cloud Server, ECS)提供文件共享服务。高性能弹性文件服务提供标准的文件访问协议NFS(仅支持NFSv3)和SMB,用户可以将现
停止计费 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的高性能弹性文件服务、包年/包月的弹性云服务器等,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资源是否属于五天无理由退订、是否使
Turbo文件系统后再删除。 前提条件 卸载文件系统前建议先终止进程和停止读写再卸载。 Linux系统 登录弹性云服务器。 执行以下命令。 umount 本地路径 本地路径:云服务器上用于挂载文件系统的本地路径,例如“/local_path”。 执行卸载命令时,请先结束所有与这个SFS
有云的VPC对等连接功能,将同区域的两个或多个VPC互连以使这些VPC互通,则实际上不同的VPC便处于同一个网络中,归属于这些VPC下的云服务器也能共享访问同一个文件系统。更多关于VPC对等连接功能信息请参见VPC对等连接。 父主题: SFS Turbo访问类问题
SFS Turbo中,进行云上业务拓展。 此方案通过在云上和本地分别创建一台Linux操作系统的服务器,将本地NAS存储中的数据迁移至云上。两台服务器端口号22的出入方向需允许访问。本地服务器用于访问本地NAS存储,云上服务器用于访问云上SFS Turbo。 通过公网将云上NAS存储数据迁移至SFS
项相对应,只有发起请求的用户被授予授权项所对应的策略,该用户才能成功调用该接口。例如,用户要调用接口来查询云服务器列表,那么这个IAM用户被授予的策略中必须包含允许“ecs:servers:list”的授权项,该接口才能调用成功。 支持的授权项 策略包含系统策略和自定义策略,如果