检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
I训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训练任务,训练速度加快可以节省AI算力费用。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。 父主题: 面向AI场景使用OBS+SFS
ame[:port]。端口缺省时使用默认的端口,https的默认端口为443。 否 使用AK/SK认证时该字段必选。 code.test.com or code.test.com:443 Content-Type 消息体的类型(格式)。推荐用户使用默认值application/j
noresvport 指定NFS客户端向NFS服务端重新发起建立连接时使用新的TCP端口。 强烈建议使用noresvport参数,这可以保障网络发生故障恢复事件后文件系统服务不会中断。 nolock 选择是否使用NLM协议在服务器上锁定文件。当选择nolock选项时,锁对于同一主机的应用有效,对不同主机不受锁的影响。
Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时,您需要及时清理SFS Turbo存储空间、或缩短
追踪器停用成功后,操作下的“停用”切换为“启用”。如果您需要重新启用追踪器,单击“启用 > 确定”,则系统重新开始记录新的操作。 父主题: 使用CTS审计SFS Turbo文件系统
持以邮箱、短信、HTTP、HTTPS等方式通知用户,让用户在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。 云监控使用消息通知服务向用户通知告警信息。首先,您需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,您需要开
该指标用于统计文件系统已用容量。 单位:byte ≥ 0 bytes 高性能弹性文件服务 1分钟 used_capacity_percent 容量使用率 该指标用于统计文件系统已用容量占总容量的比例。 单位:百分比 0 - 100% 高性能弹性文件服务 1分钟 used_inode 已用inode数
天的操作记录。 本节介绍如何在云审计服务管理控制台查看或导出最近7天的操作记录: 在新版事件列表查看审计事件 在旧版事件列表查看审计事件 使用限制 单账号跟踪的事件可以通过云审计控制台查询。多账号的事件只能在账号自己的事件列表页面去查看,或者到组织追踪器配置的OBS桶中查看,也可
0/0(可配置,此处表示放通所有IP地址) 一个端口对应一条访问规则,所有端口信息需逐条添加。 IP地址使用掩码表示,如192.168.1.0-192.168.1.255的地址段应使用掩码形式:192.168.1.0/24。如果源地址为0.0.0.0/0,则表示放通所有IP地址。更多详情请参见安全组和安全组规则概述。
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
il命令行工具使用指导。 OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案。 将数据从OBS预热到SFS Turbo中 SFS Turbo HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。
如何使用非root的普通用户挂载文件系统到Linux云服务器 使用场景 Linux操作系统的弹性云服务器默认只能通过root账号使用mount命令进行挂载文件系统,但可通过赋予其他普通用户root权限,达到使非root的普通用户能够在弹性云服务器上使用mount命令挂载文件系统。
方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影响,默认是16Gbit/s,如果大模型训练生成的Che
加密传输涉及加解密流程,性能相比非加密传输会有部分下降。 加密挂载教程-Linux 安装stunnel。 stunnel是一个开源网络中继。stunnel会监听本地端口,并将发到其上的流量加密转发到SFS Turbo文件系统,要使用加密传输功能需要先安装stunnel。请执行以下命令进行安装:
和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):私有访问密钥。与访问密钥ID结合使用,对请求进行加密签名,可标识发送方,并防止请求被修改。 使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对
StragglerDetector() def model_provider(pre_process=True, post_process=True) -> Union[GPTModel, megatron.legacy.model.GPTModel]: 在import mega
包年/包月:一种预付费模式,即先付费再使用,按照订单的购买周期进行结算。购买周期越长,享受的折扣越大。一般适用于可预估资源使用周期的场景。 按需计费:一种后付费模式,即先使用再付费,按照实际使用时长计费。按需计费模式允许您根据实际业务需求灵活地调整资源使用,无需提前预置资源,从而降低预置过多或不足的风险。