检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。因此,我们在AITurbo SDK中提供了快速保存和加载checkpoint的功能,当前流行的两种大模型训练框架Megatron进行简单适配便可使用。
通用文件系统挂载后为什么会显示250TB? 通用文件系统容量无限制。用户在客户端上执行df -h时,为了显示需要,系统则直接返回了250TB。数值实际上无任何意义,可以使用的容量无限制。 父主题: 其他类
install nfs-utils 图2 执行安装命令 图3 安装成功 重新执行挂载命令。将文件系统挂载到云服务器上。 mount -t nfs -o vers=3,timeo=600,noresvport,nolock 挂载地址 本地路径 挂载完成后,执行如下命令,查看已挂载的文件系统。
登录弹性云服务器,使用云服务器IP执行ping命令访问弹性文件服务,检测是否可以连通。如图1所示。 是 => 网络问题已解决,排查其他可能原因。 否 => 由于网络问题,使用云服务器虚拟IP无法访问弹性文件服务,需使用私有IP执行ping命令访问弹性文件服务再检测是否可以连通。 图1 执行ping命令访问弹性文件服务
Turbo:增加挂载配置,选择创建资源中创建的SFS Turbo HPC型文件系统。 单击“提交”,完成训练作业的创建。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时
OS、Fedora或OpenSUSE系统下,执行如下命令: rpm -qa|grep nfs Debian或Ubuntu系统下,执行如下命令: dpkg -l nfs-common 不同操作系统回显会有所不同,如果回显如下类似信息,说明已经成功安装NFS软件包,执行步骤3。如未显示,执行步骤2.2。 CentOS、Red
Linux系统 登录弹性云服务器。 执行以下命令。 umount 本地路径 本地路径:云服务器上用于挂载文件系统的本地路径,例如“/local_path”。 执行卸载命令时,请先结束所有与这个文件系统相关的读写操作,并退出“本地路径”目录,再执行卸载命令,否则将卸载失败。 Windows系统
SFS容量型文件系统挂载后为什么容量显示为10P? 历史创建的SFS容量型文件系统如果选择了自动扩容,则文件系统是无容量限制的。用户在客户端上执行df -h时,为了显示需要,系统则直接返回了10P。 父主题: 其他类
查询job的状态详情 功能介绍 查询job的执行状态。 可用于查询SFS Turbo异步API的执行状态。例如:可使用调用创建并绑定ldap配置接口时返回的jobId,通过该接口查询job的执行状态。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
通用户Mike为例。 图2 添加用户 编辑完成后,单击“Esc”,并输入:wq,保存文件并退出。 执行chmod 440 /etc/sudoers命令恢复sudoers文件权限为只读权限。 切换到普通用户Mike登录弹性云服务器。 执行如下命令挂载文件系统。挂载参数参见表1。 sudo
OS、Fedora或OpenSUSE系统下,执行如下命令: rpm -qa|grep nfs Debian或Ubuntu系统下,执行如下命令: dpkg -l nfs-common 不同操作系统回显会有所不同,如果回显如下类似信息,说明已经成功安装NFS软件包,执行3。如未显示,执行该步骤。 CentOS、Red
Turbo文件系统拷贝和删除操作的效率? Linux常用cp、rm、tar命令,默认属于串行操作,无法发挥网络文件系统的并发优势,需要用户并发执行以上命令,提升执行效率。 父主题: 其他类
SFS容量型文件系统:以root用户登录云服务器,执行“showmount -e 文件系统域名或IP”命令,将会回显指定域名或IP下所有可用的SFS容量型文件系统。 通用文件系统:当前不支持使用。 SFS Turbo文件系统:以root用户登录云服务器,执行“showmount -e 文件系统
高性能计算 场景介绍 高性能计算通常指以计算为目的,使用了很多处理器的单个计算机系统或者使用了多台计算机集群的计算机系统和环境。能够执行一般个人电脑无法处理的大资料量与高性能的运算。高性能计算具有超高浮点计算能力,可用于解决计算密集型、海量数据处理等业务的计算需求,如应用于工业设
0.1:[本地监听端口] connect = [dns name]:2052 执行如下命令拉起stunnel进程。 stunnel /etc/stunnel/stunnel_[本地监听端口].conf 执行如下挂载命令。 mount -t nfs -o vers=3,nolock,tcp
可以新创建加密或者不加密的文件系统,无法更改已有文件系统的加密属性。 创建加密文件系统的具体操作请参见创建文件系统。 卸载加密文件系统 如果加密文件系统使用的自定义密钥被执行禁用或计划删除操作,当操作生效后,使用该自定义密钥加密的文件系统仅可以在一段时间内(默认为30s)正常使用。请谨慎操作。 卸载文件系统的具体操作请参见卸载文件系统。
Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。 登录SFS管理控制台。 在文件系统列表中,单击创建的HPC型文件系统名称,进入文件系统详情页面。 在“基本信息”页签,设置冷数据淘汰时间。
访问OBS存储桶中的数据。元数据导入功能仅会导入文件元数据,文件内容会在首次访问时从OBS存储桶中加载并缓存在SFS Turbo中,后续重复访问会直接命中,无需再从OBS存储桶中加载。 SFS Turbo文件系统提供快速导入和附加元数据导入两种元数据导入方式。元数据导入之后,您可
中写入的DNS服务器的IP地址被重置。 执行如下命令,进行文件锁定设置。 chattr +i /etc/resolv.conf 如果需要再次对锁定文件进行修改,执行chattr -i /etc/resolv.conf命令,解锁文件。 执行如下命令,验证是否设置成功。 lsattr
创建共享 功能介绍 创建文件共享。创建文件系统成功后,您还需前往弹性云服务器执行挂载操作,才能实现多个云服务器共享文件存储。挂载相关操作请参考弹性文件服务快速入门。 该接口为异步接口,返回为200只是表示接口下发接收成功,后续可以通过查询共享详细信息查询共享的共享状态和共享路径,