检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。 从过去的经典AI,到今天人人谈论的大模型,自动驾驶,我们看到AI模型的参数及
应用、高性能web应用 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 大规模AI训练、AI大模型、AIGC 大规模AI训练、AI大模型、AIGC 表4 SFS Turbo上一代文件系统 参数 标准型 标准型-增强版 性能型 性能型-增强版 HPC缓存型 最大带宽
应用、高性能web应用 AI训练、自动驾驶、EDA仿真、渲染、企业NAS应用、高性能web应用 大规模AI训练、AI大模型、AIGC 大规模AI训练、AI大模型、AIGC 表3 SFS Turbo上一代文件系统 参数 标准型 标准型-增强版 性能型 性能型-增强版 HPC缓存型 最大带宽
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练。原生Pytor
《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,在时延、带宽等存储性能上无法满足高性能AI训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训
子项目,并在子项目中创建资源,然后以子项目为单位进行授权,使得用户仅能访问特定子项目中的资源,使得资源的权限控制更加精确。 图1 项目隔离模型 同样在我的凭证下,您可以查看项目ID。 企业项目 企业项目是项目的升级版,针对企业不同项目间的资源进行分组和管理,是逻辑隔离。企业项目中
实际使用的存储容量和时长收费,以小时为单位,按每小时整点结算,不设最低消费标准。结算时,时长不足1小时的,按1小时计费。计费模型如表1所示。 表1 计费模型 资费项 计费项 计费公式 存储空间计费 文件系统所占用的存储空间容量和使用时长 存储空间费用=每GB费率*存储容量*使用时长
资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:文件系统类型为“HPC型”,存储类型请根据存储容量和性能
表1 SFS容量型文件系统的计费模型 资费项 计费项 计费项说明 计费公式 计费模式 存储费用 存储空间 根据文件系统所使用的存储容量和使用时长计费 存储费用=每GB费率*使用容量*使用时长 按需计费 包年包月 表2 通用文件系统的计费模型 资费项 计费项 计费因子 计费说明
续使用,降低因资源欠费而导致的数据安全风险。 适用计费项 表1 SFS容量型文件系统计费模型 计费项 计费项 存储空间计费 文件系统所占用的存储空间容量和使用时长。 表2 通用文件系统计费模型 计费项 计费因子 计费说明 容量型 存储空间 通用文件系统所占用的存储空间容量和使用时长。
议单层目录下不要放置超过50万的文件或子目录,否则可能由于NFS协议需要向服务端发送大量遍历请求而产生排队,导致请求耗时非常长。 目录最大深度(单位:层) 100 100 100 最大路径长度(单位:Byte) 1024 4096 4096 最大软链接长度(单位:Byte) 1024
跨配额目录红线所示,会穿过黑色虚线。 配额目录: D1,D2_0。 目录深度:根目录/往下到当前目录的层数,例如,目录/D1/D2_0/D3_1深度为4。 配额目录深度:当前目录不断往上找,穿过黑色矩形虚线的层数。例如,目录/D1/D2_0/D3_1配额目录深度为2。 红线与绿线:mv或者link操作,绿色表示允许操作,红色表示不允许操作。
Turbo监控指标说明和创建告警规则。 SFS Turbo性能监控 您可以在CES云监控服务上监控和SFS Turbo文件系统的性能使用情况。当AI算力集群规模变大,大模型参数量变大,导致Checkpoint读加载时间变长时,或训练数据集加载由于存储读写带宽不足导致拖慢AI训练时,您可以对SFS Turbo进
用的存储容量和时长收费,以小时为单位,按每小时整点结算,不设最低消费标准。结算时,时长不足1小时的,按1小时计费。 表1 SFS容量型计费模型 计费项 计费说明 存储空间计费 文件系统所占用的存储空间容量和使用时长 通用文件系统 默认为按需计费模式。即创建文件系统免费,存储费用按
创建OBS桶。 创建ModelArts资源池 以常见的专属资源池为例,专属资源池提供独享的计算资源,可用于Notebook、训练作业、部署模型。专属资源池不与其他用户共享,更加高效。在使用专属资源池之前,您需要先创建一个专属资源池,操作指导请参考创建专属资源池。 父主题: 实施步骤