检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间
当客户端与服务端之间网络延迟较高(例如在线下IDC访问云上NFS文件系统和跨Region挂载NFS文件系统的场景下),且您需要达到较高的带宽或IOPS时,建议开启该功能; 开启nconnect后对于单并发、小IO数据块等场景会有一定的时延增加,当您的业务为小并发的延迟敏感型时,不建议开启该功能; nconnec
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
建多个子目录并挂载至主目录上,同时使普通用户拥有读写权限。 操作流程 为文件系统创建普通用户可读写的子目录的流程如图1所示。 图1 操作流程 父主题: 为文件系统创建普通用户可读写的子目录
资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 创建SFS Turbo
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
文件系统支持的共享访问协议为NFS(暂只支持NFSv3)。 - VPC 需要先选择对应VPC所在的IAM项目,再选择对应的VPC。什么是IAM项目? 需要选择弹性云服务器和VPC终端节点所在的VPC。 云服务器无法访问不在同一VPC下的文件系统,需要选择与云服务器相同的VPC。后续可以在权限列表中补充添加其他VPC。
修改文件系统绑定的安全组 功能介绍 修改SFS Turbo文件系统绑定的安全组。修改安全组为异步任务,可以通过“查询单个文件系统”返回的子状态字段“sub_status”来判断是否修改安全组状态,子状态为“232”即为修改安全组成功。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
实施步骤 创建文件系统本地目录 为每个用户创建有读写权限的子目录 父主题: 为文件系统创建普通用户可读写的子目录
HPC型是按每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC性能不足时,需要通过容量扩容来提高性能吞吐。 OBS性能监控 您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入导出速度会受OBS服务的读写带宽上限Qo
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
String 权限规格的id ip_cidr String 授权对象的IP地址或网段 rw_type String 授权对象的读写权限 rw:默认选项,以读写的方式共享 ro:以只读的方式共享 none: 没有权限 user_type String 授权对象的系统用户对文件系统的访问权限。取值如下:
实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先。 如果您给用户授予SFS FullAccess的系统策略,但不希望用户拥有SFS FullAccess中定义的删除文件系统权限,您可以创建一条拒绝删除文件系统的自定义策略,然后同时将SFS
录,方便您查看任务进度和状态。 系统只会保留最近创建的1000条任务记录,之前的任务记录系统将会自动删除。 在绑定后端存储列表页,单击界面左上角的“任务状态”。 执行导出数据操作,可查看对应操作的任务记录。单击状态右边的可查看成功或失败的次数。 在右上角的搜索框,支持对状态、类型、创建时间进行过滤,找到您需要的任务。
SFS容量型文件系统:支持在线扩容。 SFS Turbo:支持在线扩容,扩容过程中,正在挂载使用的连接可能存在30%左右的性能抖动; SFS Turbo上一代文件系统:支持在线扩容,扩容过程中挂载文件系统可能失败,正在挂载使用的连接会感知30秒左右的IO延迟(最长可能为3分钟)。 通用文件系统无容量限制,不支持容量调整。
Turbo:增加挂载配置,选择创建资源中创建的SFS Turbo HPC型文件系统。 单击“提交”,完成训练作业的创建。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟
如何确认Linux云服务器上的文件系统处于可用状态? SFS容量型文件系统:以root用户登录云服务器,执行“showmount -e 文件系统域名或IP”命令,将会回显指定域名或IP下所有可用的SFS容量型文件系统。 通用文件系统:当前不支持使用。 SFS Turbo文件系统:
String 授权对象的读写权限 rw:默认选项,以读写的方式共享 ro:以只读的方式共享 none: 没有权限 user_type String 授权对象的系统用户对文件系统的访问权限。取值如下: no_root_squash:客户端使用的是root用户时,映射到NFS服务器的用户依然为root用户。
lookupcache是和目录项缓存相关的一个参数,这个参数的取值可以是all,none,pos或者positive。lookupcache=none表示客户端既不信任标记为positive的缓存,也不信任标记为negative的缓存,达到禁用缓存的效果。 解决方法 如果已挂载
使用非root的普通用户挂载文件系统到Linux云服务器 使用场景 Linux操作系统的弹性云服务器默认只能通过root账号使用mount命令进行挂载文件系统,但可通过赋予其他普通用户root权限,达到使非root的普通用户能够在弹性云服务器上使用mount命令挂载文件系统。以下操作以Euler