检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。 从过去的经典AI,到今天人人谈论的大模型,自动驾驶,我们看到AI模型的参数及
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能
《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
创建OBS桶。 创建ModelArts资源池 以常见的专属资源池为例,专属资源池提供独享的计算资源,可用于Notebook、训练作业、部署模型。专属资源池不与其他用户共享,更加高效。在使用专属资源池之前,您需要先创建一个专属资源池,操作指导请参考创建专属资源池。 父主题: 实施步骤
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytor
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前
望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,在时延、带宽等存储性能上无法满足高性能AI训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训
成本管理 随着上云企业越来越多,企业对用云成本问题也越发重视。使用高性能弹性文件服务SFS Turbo时,如何进行成本管理,减轻业务负担呢?本文将从成本构成、成本分配、成本分析和成本优化四个维度介绍成本管理,帮助您通过成本管理节约成本,在保障业务快速发展的同时获得最大成本收益。 成本构成
应用、高性能web应用 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 大规模AI训练、AI大模型、AIGC 大规模AI训练、AI大模型、AIGC 表2 SFS Turbo上一代文件系统 参数 标准型 标准型-增强版(停售) 性能型 性能型-增强版(停售)
子项目,并在子项目中创建资源,然后以子项目为单位进行授权,使得用户仅能访问特定子项目中的资源,使得资源的权限控制更加精确。 图1 项目隔离模型 同样在我的凭证下,您可以查看项目ID。 企业项目 企业项目是项目的升级版,针对企业不同项目间的资源进行分组和管理,是逻辑隔离。企业项目中
默认为按需计费模式。即按您购买时选择的存储容量和时长收费,而不是以实际的使用量收费。以小时为单位,按每小时整点结算。结算时,时长不足1小时的,按1小时计费。计费模型如表1所示。 表1 计费模型 计费项 计费因子 标准型、标准型-增强版(停售)、性能型、性能型-增强版(停售)、20MB/s/TiB、40MB/s/Ti
应用、高性能web应用 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 大规模AI训练、AI大模型、AIGC 大规模AI训练、AI大模型、AIGC 表2 SFS Turbo上一代文件系统 参数 标准型 标准型-增强版(停售) 性能型 性能型-增强版(停售)
间费用;其中SFS Turbo文件系统的HPC缓存型除存储空间计费外,还可以按“带宽大小”来计费。 表1 SFS Turbo文件系统的计费模型 资费项 计费项 计费因子 计费项说明 计费公式 计费模式 存储费用 标准型、标准型-增强版、性能型、性能型-增强版、20MB/s/TiB
存型文件系统还可按带宽大小收费)。以小时为单位,按每小时整点结算。结算时,时长不足1小时的,按1小时计费。 表1 SFS Turbo 计费模型 计费项 计费因子 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1
审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录SFS
Turbo监控指标说明和创建告警规则。 SFS Turbo性能监控 您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进
数据安全要求高:对于对数据安全性要求较高的业务,包年/包月计费模式可确保资源的持续使用,降低因资源欠费而导致的数据安全风险。 适用计费项 表1 SFS Turbo计费模型 计费项 计费因子 20MB/s/TiB、40MB/s/TiB、125MB/s/TiB、250MB/s/TiB、500MB/s/TiB、1
查询目录资源使用情况 功能介绍 查询目录资源使用情况(包括子目录的资源)。后端有5min的缓存时间,查询的数据可能有延迟。 接口约束 在2023年8月1号之后创建的文件系统支持该API操作。该接口仅适用于SFS Turbo上一代文件系统规格类型(标准型、标准型-增强版、性能型、性
续费概述 续费简介 包年/包月SFS Turbo到期后会影响文件系统正常使用。如果您想继续使用,需要在指定的时间内为SFS Turbo续费,否则文件系统资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月SFS Turbo,按需计费SFS Turbo不需要续费,只需要保证账户余额充足即可。
区域和可用区 什么是区域、可用区? 区域和可用区用来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Re