检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数类型 描述 update_hpc_cache 是 ReqUpdateHpcCacheInfo object 后端挂载信息 表4 ReqUpdateHpcCacheInfo 参数 是否必选 参数类型 描述 action 是 String 配置hpc缓存型的动作,如initialize_overlay
高性能计算 场景介绍 高性能计算通常指以计算为目的,使用了很多处理器的单个计算机系统或者使用了多台计算机集群的计算机系统和环境。能够执行一般个人电脑无法处理的大资料量与高性能的运算。高性能计算具有超高浮点计算能力,可用于解决计算密集型、海量数据处理等业务的计算需求,如应用于工业设
配置SFS Turbo和OBS联动 SFS Turbo HPC型文件系统支持无缝访问存储在对象存储OBS存储桶中的对象,您可以指定SFS Turbo内的文件目录与OBS对象存储桶进行关联。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击
20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB、HPC缓存型(停售)等类型的SFS Turbo文件系统最多支持同时挂载到3000台云服务器上; 标准型、标准型-增强版(停售)、性能型、性能型-增强版(停售)等类型的SFS
图1 基于OBS+SFS Turbo的华为云AI云存储解决方案 方案优势 华为云AI云存储解决方案的主要优势如下表所示。 表1 华为云AI云存储解决方案的主要优势 序号 主要优势 详细描述 1 存算分离,资源利用率高 GPU/NPU算力和SFS Turbo存储解耦,各自按需扩容,资源利用率提升。
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容
按需计费适用于具有不能中断的短期、突增或不可预测的应用或服务,例如电商抢购、临时测试、科学计算。 适用计费项 SFS Turbo文件系统默认为按需计费模式,按您购买时选择的存储容量和时长收费,而不是以实际的使用量收费(其中,HPC缓存型文件系统还可按带宽大小收费)。以小时为单位,按每小时整点结算。结算时,时长不足1小时的,按1小时计费。
时长计费。按需计费模式允许您根据实际业务需求灵活地调整资源使用,无需提前预置资源,从而降低预置过多或不足的风险。 表1列出了两种计费模式的区别。 表1 计费模式 计费模式 包年/包月 按需计费 付费方式 预付费 按照订单的购买周期结算。 后付费 按照文件系统实际使用时长计费。 计费周期
2TB的整数倍。可调整最大容量不超过1PB。 HPC缓存型(停售):起步容量=选择的新带宽大小*2,扩容步长为1TB起步,可调整最大容量不超过1PB。 说明: 特殊场景:HPC缓存型(停售)支持在容量不变的情况下,降低带宽。 当前带宽 HPC缓存型文件系统的当前带宽。 目标带宽 扩容后HPC缓存型文件系统的新带宽大小。
s/TiB、250MB/s/TiB、500MB/s/TiB、1000MB/s/TiB文件系统,需要填写"hpc"。 创建HPC缓存型,需要填写"hpc_cache"。 hpc_bw 否 String 文件系统的带宽规格。 创建20MB/s/TiB、40MB/s/TiB、125MB
、500MB/s/TiB、1000MB/s/TiB、HPC缓存型 存储空间 文件系统所购买的存储容量和使用时长 存储费用=每GB费率*购买容量*使用时长 按需计费 包年包月 带宽费用 HPC缓存型 带宽大小 根据缓存带宽大小和使用时长计费 带宽费用=每GB费率*带宽大小*使用时长
Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从OBS中加载文件数据内容。
令行工具使用指导。 OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案。 将数据从OBS预热到SFS Turbo中 SFS Turbo HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。
说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。 2 创建资源 创建VPC:创建1个虚拟私有云和子网。 创建SFS Turbo HPC型文件系统:创建1个SFS Turbo文件系统,文件系统类型选择“HPC型”,存储类型请根据存储容量和性能需求选择,AI场
SFS Turbo HPC型是按每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC性能不足时,需要通过容量扩容来提高性能吞吐。 OBS性能监控 您可以在CES云监控服务上监控SFS Turbo关联的OBS桶的性能使用情况,SFS Turbo和OBS之间的数据导入
Turbo:增加挂载配置,选择创建资源中创建的SFS Turbo HPC型文件系统。 单击“提交”,完成训练作业的创建。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时
Turbo文件系统名称 创建的文件系统名称只能由英文字母、数字、下划线和中划线组成,输入长度需大于等于4个字符并小于等于64个字符,并以字母开头。 标签的键 标签的“键”最大长度为128个字符,可以包含任意语种的字母、数字和空格,以及_.:=+-@字符,但首尾不能包含空格,且不能以_sys_开头。
表5 响应Body参数 参数 参数类型 描述 tasks Array of OneHpcCacheTaskInfoResp objects 任务详情 count Long 任务数量 表6 OneHpcCacheTaskInfoResp 参数 参数类型 描述 task_id String