检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例,PyTorch默认会通过文件接口访问数据,AI算法开发人员也习惯使用文件接口,因此文件接口是最友好的共享存储访问方式。
面向AI场景使用OBS+SFS Turbo的存储加速实践 面向AI场景使用OBS+SFS Turbo的存储加速方案概述 资源和成本规划 操作流程 实施步骤 常见问题
option。 可能原因 Linux云服务器系统未安装NFS客户端,用户在执行挂载命令前未自行安装nfs-utils软件包。 定位思路 安装所需的nfs-utils软件包即可。 解决方法 以下步骤中的命令是以CentOS、Red Hat、Oracle Enterprise Linux、SUSE、Euler
Turbo还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景,例如企业OA、高性能网站和软件开发等场景。 商用 文件系统类型 2018年9月 序号 功能名称 功能描述 阶段 相关文档 1 SFS Turbo公测 SFS Turbo
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化
此外,高性能弹性文件服务还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景,例如企业OA、高性能网站和软件开发等场景。 父主题: SFS Turbo概念类问题
Operating System Interface,POSIX),是IEEE为要在各种UNIX操作系统上运行软件而定义API的一系列互相关联的标准的总称。POSIX标准意在期望获得源代码级别的软件可移植性。也就是为一个POSIX兼容的操作系统编写的程序,可以在任何其它的POSIX操作系统上编译执行。
(每秒读写次数)和各种工作负荷下低时延的需求。 某生物平台需要软件进行大量的基因测序,但业务处理步骤多,业务部署慢,流程复杂,效率低,易出错,所以自建集群跟不上业务发展。但自从使用了提供专业的高性能计算业务流程管理软件,依托云平台的海量计算资源和存储资源,充分结合云平台和高性能计
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
安装NFS客户端。 安装NFS客户端。 执行如下命令查看系统(此处以CentOS为例)是否安装NFS软件包。 rpm -qa|grep nfs 如果回显如下信息,说明已经成功安装NFS软件包,执行解析域名步骤。如未显示,执行安装命令。 libnfsidmap nfs-utils 如果查看到未安装,执行如下命令。
Turbo域名的请求转发到连接DNS服务的终端节点。 不同操作系统中配置DNS转发规则的方法不同,具体操作请参考对应DNS软件的操作指导。 本步骤以Unix操作系统,常见的DNS软件Bind为例介绍: 方式1:在/etc/named.conf文件中增加DNS转发器的配置,“forwarder
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。
Y)登录。 若以非root用户登录弹性云服务器,具体操作请参考非root普通用户挂载文件系统。 安装NFS客户端。 查看系统是否安装NFS软件包。 CentOS、Red Hat、Oracle Enterprise Linux、SUSE、Euler OS、Fedora或OpenSUSE系统下,执行如下命令:
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私
制华为云资源的访问。 通过IAM,您可以在华为账号中给员工创建IAM用户,并使用策略来控制他们对华为云资源的访问范围。例如您的员工中有负责软件开发的人员,您希望他们拥有SFS Turbo的使用权限,但是不希望他们拥有删除文件系统等高危操作的权限,那么您可以使用IAM为开发人员创建用户,通过授予仅能使用SFS
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
跨配额目录红线所示,会穿过黑色虚线。 配额目录: D1,D2_0。 目录深度:根目录/往下到当前目录的层数,例如,目录/D1/D2_0/D3_1深度为4。 配额目录深度:当前目录不断往上找,穿过黑色矩形虚线的层数。例如,目录/D1/D2_0/D3_1配额目录深度为2。 红线与绿线:mv或者link操作,绿色表示允许操作,红色表示不允许操作。
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
例行维护 SFS Turbo容量监控及告警 如果SFS Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS