检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK列表 表1提供了SFS Turbo服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 表1 SDK列表 编程语言 Github地址 参考文档 Java huaweicloud-sdk-java-v3
NoSuchAlgorithmException; import java.util.ArrayList; import java.util.Arrays; import java.util.Base64; import java.util.Collections; import java.util.HashMap;
sfsclient; import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.util.List; import java.util.Map; public class
练程序从已有checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。因此,我们在AITurbo SDK中提供了快速保存和加载checkpoint的功能,当前流行的两种大模型训练框架Megatron进行简单适配便可使用。
sfsclient; import java.io.*; import java.net.HttpURLConnection; import java.net.URL; import java.util.List; import java.util.Map; public class
异构计算:这种以不同类型的指令集和体系架构的计算单元为组成的系统计算方式要求文件系统高带宽、低时延。 弹性文件服务是基于文件系统的共享存储服务,具有高速数据共享,动态分级存储,按需平滑扩展,支持在线扩容等特点,能充分满足高性能计算中用户对存储容量,吞吐量,IOPS(每秒读写次数)和各种工作负荷下低时延的需求。
Turbo文件系统 管理SFS Turbo文件系统与OBS桶的存储联动 目录配额 加密传输 文件系统权限管理 通过AITurbo加速保存与加载checkpoint
表1 URI中的参数 参数 描述 是否必选 protocol 请求使用的协议类型,如HTTP、HTTPs。HTTPs表示通过安全的HTTPs访问该资源,SFS服务支持HTTP,HTTPs两种传输协议。 必选 filesystem 请求使用的文件系统资源路径,在整个系统中唯一标识一个文件系统。
用API,该API获取用户的Token,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987。 请求URI 请求URI由如下部分组成: {URI-schem
Transfer)风格API,支持您通过HTTPS请求调用,调用方法请参见如何调用SFS容量型/SFS Turbo API。 通用文件系统提供了REST(Representational State Transfer)风格API,支持您通过HTTP/HTTPS请求调用,调用方法请参见如何调用通用文件系统API。
ila-Api-Version的值大于等于2.9,该接口才存在。用curl命令发送请求的示例如下:curl -k -i -X GET https://192.168.196.47:8786/v2/13c7ff9a479c4e3599f4331d9e4a1835/shares/2a
视频渲染、特效加工需要频繁处理小文件,要求文件系统具有较高的数据读写性能。 弹性文件服务是基于文件系统的共享存储服务,具有高速数据共享,动态分级存储,按需平滑扩展,支持在线扩容等特点,能充分满足媒体处理中用户对存储容量,吞吐量,IOPS(每秒读写次数)和各种工作负荷下低时延的需求。
访问OBS存储桶中的数据。元数据导入功能仅会导入文件元数据,文件内容会在首次访问时从OBS存储桶中加载并缓存在SFS Turbo中,后续重复访问会直接命中,无需再从OBS存储桶中加载。 SFS Turbo文件系统提供快速导入和附加元数据导入两种元数据导入方式。元数据导入之后,您可
timeo=600,noresvport,nolock 文件系统2挂载地址 /mnt/dst 下载并安装rclone工具。下载地址请参见https://rclone.org/downloads/。 执行以下命令,进行数据同步。 rclone copy /mnt/src /mnt/dst
吞吐的数据访问能力,充分发挥 GPU/NPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于
String API版本号。值为v1或v2。 请求消息头 该操作消息头与普通请求一样,请参见表3。 请求消息 参数说明 无 请求样例 GET https://{endpoint}/v2/ 响应消息 参数说明 参数 参数类型 描述 versions Object 所有可用的API版本列表对象。
Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。 登录SFS管理控制台。 在文件系统列表中,单击创建的HPC型文件系统名称,进入文件系统详情页面。 在“基本信息”页签,设置冷数据淘汰时间。
望获得源代码级别的软件可移植性。也就是为一个POSIX兼容的操作系统编写的程序,可以在任何其它的POSIX操作系统上编译执行。 DHCP 动态主机配置协议(Dynamic Host Configuration Protocol,DHCP)是一个局域网的网络协议。指的是由服务器控制
Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进行性能扩容,以缩短数据加载时长。详情可参见SFS Turbo监控指标说明和创建告警规则。 调整SFS Turbo数据淘汰策略