检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据保护技术 数据加密 高性能弹性文件服务支持服务器端加密功能,文件存储会对存储在文件系统中的数据进行加密,访问数据时,自动将加密数据解密后返回给用户。 具体使用方法请参见文件系统加密。 数据备份 备份是SFS Turbo文件系统在某一时间点的完整备份,记录了这一时刻文件系统的所有配
文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI
面向AI场景使用OBS+SFS Turbo的存储加速实践 面向AI场景使用OBS+SFS Turbo的存储加速方案概述 资源和成本规划 操作流程 实施步骤 常见问题
配置流程 整理好需要上传的基因测序文件。 登录高性能弹性文件服务控制台,创建一个文件系统用于存放基因测序文件。 登录作为头节点和计算节点的云服务器,挂载文件系统。 通过头节点将需要上传的基因测序文件上传到挂载的文件系统。 登录计算节点,直接对挂载的文件系统中的基因测序文件进行编辑。
HPC型是按每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC性能不足时,需要通过容量扩容来提高性能吞吐。 OBS性能监控 您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入导出速度会受OBS服务的读写带宽上限Qo
found 对象不存在或没有权限 请使用合法的参数重试。 400 SFS.TURBO.0003 Invalid name 名称不符合规则 请使用合法的参数重试。 400 SFS.TURBO.0004 Invalid vpc 指定的vpc无效 请使用合法的参数重试。 400/500 SFS.TURBO
可能原因 处理措施 文件系统和挂载的服务器不在同一个可用区 在与服务器相同的可用区新建一个文件系统,将另一可用区的文件系统数据迁移至新文件系统后,再将新文件系统挂载至服务器。 使用场景与文件系统类型不匹配 结合业务场景,参考文件系统类型,选择正确的文件系统类型。 并发数过高或过低
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
授权项分类 文件系统 权限 对应API接口 授权项 依赖的授权项 IAM项目 (Project) 企业项目 (Enterprise Project) 创建文件系统 POST /v1/{project_id}/sfs-turbo/shares sfsturbo:shares:createShare
连接管理 修改文件系统绑定的安全组 父主题: API
任务管理 查询job的状态详情 父主题: API
权限管理 创建权限规则 查询文件系统的权限规则列表 查询文件系统的某一个权限规则 修改权限规则 删除权限规则 创建并绑定ldap配置 查询Ldap的配置 修改ldap配置 删除ldap配置 父主题: API
对于按需计费模式的资源,例如按需计费的高性能弹性文件服务、按需计费的弹性云服务器等,如果不再使用这些资源且需停止计费,请删除相应资源。 通过账单查找云服务资源并停止计费 为了确保所有计费资源都能够被找到并删除,您可以在费用账单中获取计费资源的ID,通过这些ID信息找到具体的资源,然后将其一一删除。具体操作如下:
API 生命周期管理 连接管理 共享标签 名称管理 文件系统管理 存储联动管理 目录管理 权限管理 任务管理
变更计费模式 变更计费模式概述 按需转包年/包月 包年/包月转按需
Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影
云服务器无法访问文件系统,提示被拒绝,导致该云服务器的所有业务异常。 可能原因 云服务器在强制umount之后,无法挂载。 定位思路 根据可能原因进行故障排查。 解决方法 云服务器在强制umount之后,无法重新挂载访问。 此问题是云服务器的缺陷,可以通过重启云服务器来解决。 重启云服务
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
子网IP不足 如果子网IP资源不足,可以更换子网或者释放当前文件系统使用的子网下其他的IP地址。 后台资源不足 计算&存储资源等后台资源达到上限,请提交工单进行技术咨询。 提交工单 如果上述方法均不能解决您的疑问,请提交工单寻求更多帮助。
在保存checkpoint的时候,利用两阶段写、内存副本、异步持久化等技术保证checkpoint的快速、高可靠存储。具体地,第一阶段,各个节点将自己的checkpoint高速同步写入HOST侧的内存缓存中,同时写入配置好的backup节点内存缓存中,backup的内存副本可以在主节点进程异常退出时不会丢失内存ch