检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实施步骤 创建文件系统本地目录 为每个用户创建有读写权限的子目录 父主题: 为文件系统创建普通用户可读写的子目录
当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytorch系框架在保存checkpoint时均直接持久化到存储系统,耗时与模型大小、存储的IO性能等密切相关,往往需要几分钟到几十分钟不等,为了保证训练状态的一致性,保存checkpoint时训练必须暂停
归属于同一VPC下。 文件系统 文件系统通过标准的NFS协议和CIFS协议为客户提供文件存储服务,用于网络文件远程访问,用户通过管理控制台创建挂载地址后,即可在多个云服务器上进行挂载,并通过标准的POSIX接口对文件系统进行访问。 父主题: 为文件系统创建普通用户可读写的子目录
B的授权IP地址内,但该云服务器无法挂载属于VPC B下的文件系统。弹性云服务器和文件系统所使用的VPC需为同一个。 通用文件系统 登录弹性文件服务管理控制台。 左侧导航栏选择“通用文件系统”,跳转到通用文件系统控制台。 在文件系统列表中,单击目标文件系统名称进入文件系统基本信息页面。 单击左侧导航栏“权限管理”,进入权限列表界面。
一个文件系统最多支持同时挂载到多少台云服务器上? 一个SFS容量型文件系统最多支持同时挂载到10000台云服务器上。 一个SFS Turbo文件系统最多支持同时挂载到3000台云服务器上。 一个通用文件系统最多支持同时挂载到10000台云服务器上。 父主题: 规格类
加速保存与加载checkpoint 加速原理与安装AITurbo SDK 适配pytorch 父主题: AITurbo AI场景加速
获取后端存储详细信息 删除后端存储 更新后端存储属性 更新后端存储自动同步策略 创建数据导入导出任务 查询数据导入导出任务详情 查询数据导入导出任务列表 删除数据导入导出任务 更新文件系统 父主题: SFS Turbo API说明
√ √ 创建文件系统异步任务 POST /v1/{project_id}/sfs-turbo/shares/{share_id}/fs/{feature}/tasks sfsturbo:shares:createFsAsyncTask - √ √ 获取文件系统异步任务列表 GET
Administrator 创建文件系统 √ x √ 查询文件系统 √ √ √ 修改文件系统 √ x √ 删除文件系统 √ x √ 添加文件系统的访问规则 (为文件系统添加VPC或添加授权地址) √ x √ 修改文件系统的访问规则(修改文件系统的VPC或授权地址) √ x √ 删除文件系统的访问规则(删除文件系统的VPC或授权地址)
适配pytorch Megatron框架的适配需要提前安装好pytorch及其依赖。 Megatron改动示例 设置环境变量,命令如下所示: AITURBO_BACKUP_ENABLE = True 环境变量“AITURBO_BACKUP_ENABLE”用于配置是否开启内存副本,
高性能AI训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训练任务,训练速度加快可以节省AI算力费用。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。 父主题: 面向AI场景使用OBS+SFS
存,也不信任标记为negative的缓存,达到禁用缓存的效果。 解决方法 如果已挂载文件系统,请先参考卸载文件系统完成卸载操作。 参考挂载NFS文件系统到云服务器完成挂载前准备。 挂载文件系统时,使用如下命令进行挂载。 mount -t nfs -o vers=3,timeo=600
创建备份操作。 系统会自动进行文件系统的备份。 您可以在备份页面,查看备份创建状态。当文件系统备份的“备份状态”变为“可用”时,表示备份创建成功。 当文件系统发生错误等故障时,可以使用备份创建新的文件系统,具体请参考使用备份创建新文件系统。 使用备份创建新文件系统 当发生病毒入侵
FullAccess中定义的删除文件系统权限,您可以创建一条拒绝删除文件系统的自定义策略,然后同时将SFS FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对SFS执行除了删除文件系统外的所有操作。拒绝策略示例如下: { "Version": "1.1"
准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备A
为每个用户创建有读写权限的子目录 前提条件 已创建文件系统,并能通过root账号成功挂载到云服务器上。操作步骤请参考创建文件系统本地目录。 已获取到文件系统的挂载地址。 操作步骤 以root账号登录弹性云服务器。 使用以下命令在root账号下使用以下命令添加普通用户账号,下面以添加普通用户Tom为例。
如果创建加密的SFS容量型文件系统,将会使用用户填写的kms密钥进行加密。注意,该密钥如果删除,该文件系统的数据将无法使用。 SFS Turbo文件系统: 创建SFS Turbo文件系统时,会在用户填写的子网下创建多个私有IP和虚拟IP。 创建SFS Turbo文件系统时,会在用户填写的安
HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。 您可通
VPC终端节点可以为计算资源的VPC和弹性文件服务通用文件系统提供可靠的连接,计算资源的VPC需要通过VPC终端节点与通用文件系统建立通信,计算资源从而能够访问文件系统。什么是VPC终端节点? 将通用文件系统挂载至计算资源前,需要在计算资源对应区域创建指定的VPC终端节点。通用文件系统目前仅支持在华北-北京四、
directory 文件系统路径非目录 请选择合法的文件系统路径 400 SFS.TURBO.0103 The file system is being processed 文件系统正在处理中 请等待文件系统处理完成 500 SFS.TURBO.0104 Failed to import