检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AI平台开发与实施服务 基于华为云AI平台,结合业务场景,提供AI模型场景化建模、调优、加速、性能提升等服务。 工作说明书 常见问题 计费说明 父主题: 上云与实施
另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例,PyTorch默认会通过文件接口访问数据,AI算法开发人员也习惯使用文件接口,因此文件接口是最友好的共享存储访问方式。
AI平台咨询与规划服务 基于华为云AI平台,结合客户业务场景,提供AI平台规划设计可行性分析和场景化建模可行性分析服务。 工作说明书 常见问题 计费说明 父主题: 咨询与规划
什么是AI平台开发与实施服务? 华为云帮助企业快速集成ModelArts平台能力到业务应用,能够针对客户的业务场景为企业提供场景化建模咨询及模型构建服务,以及针对上线后的模型提供训练及调优服务。 父主题: 关于服务咨询
什么是AI平台咨询与规划服务? 华为云面向各行业AI应用的开发与研究,提供ModelArts平台支持类服务,针对客户不同阶段的需求,提供包括本地调用、模型优化、云上开发、模型迁移等支持服务。
为防止资源滥用,平台限定了各服务资源的配额,对用户的资源数量和容量做了限制。如您最多可以创建多少个文件系统。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看我的配额? 登录管理控制台。 单击管理控制台左上角的,选择区域。
ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。
但自从使用了提供专业的高性能计算业务流程管理软件,依托云平台的海量计算资源和存储资源,充分结合云平台和高性能计算特点,大大降低初始投资成本和后期运维成本,极大缩短业务上线时间,提高使用效率,节约运营成本。 配置流程 整理好需要上传的基因测序文件。
面向AI场景使用OBS+SFS Turbo的存储加速实践 面向AI场景使用OBS+SFS Turbo的存储加速方案概述 资源和成本规划 操作流程 实施步骤 常见问题
通过AITurbo加速保存与加载checkpoint 背景 当前,大模型训练往往使用成百上千加速卡训练几周到几个月不等。在训练过程中,故障导致训练中断经常发生。训练程序一般采用周期checkpoint方案来将训练状态持久化到存储,当发生故障时,训练程序能恢复到故障之前的模型和优化器的状态继续训练
创建训练任务 基于SFS Turbo共享文件存储创建ModelArts训练任务。 登录ModelArts管理控制台。 在左侧导航栏中选择“训练管理 > 训练作业”,进入“训练作业”列表。 单击右上角的“创建训练作业”,进入“创建训练作业”页面,在该页面填写训练作业相关参数信息。 填写训练作业相关参数信息
华为云的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。
训练 上传数据至OBS并预热到SFS Turbo中 创建训练任务 父主题: 实施步骤
API方式 如果用户需要将云服务平台上的高性能弹性文件服务集成到第三方系统,用于二次开发,请使用API方式访问高性能弹性文件服务,具体操作请参见《高性能弹性文件服务API参考》。 管理控制台方式 非API方式,请使用管理控制台方式访问高性能弹性文件服务。
支持区域: 全部 扩容文件系统 监控 云监控服务为用户提供一个针对资源的立体化监控平台。通过云监控,您可以全面了解文件系统的使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。
操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置
全部 使用CES监控SFS Turbo文件系统 云监控服务为用户提供一个针对资源的立体化监控平台。通过云监控,您可以全面了解文件系统的使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。
配置SFS Turbo数据淘汰策略 SFS Turbo HPC型文件系统绑定OBS后端之后,建议配置缓存数据淘汰功能。SFS Turbo会自动释放设定时间内没有访问过的文件数据内容,仅保留文件元数据,数据内容释放后不占用SFS Turbo文件系统上的存储空间,再次访问该文件时,将重新从
实施步骤 创建资源 基本配置 训练 例行维护 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态
创建资源 本最佳实践方案需要使用到VPC、SFS Turbo HPC型文件系统、OBS桶、ModelArts资源池资源。 为了提供最佳加速性能,建议SFS Turbo HPC文件系统和ModelArts资源池就近选择在同一个Region的同一个可用区(AZ)。 创建VPC 虚拟私有云可以为您构建隔离的
基本配置 配置ModelArts和SFS Turbo间网络直通 配置SFS Turbo和OBS联动 配置SFS Turbo数据自动导出到OBS桶 配置SFS Turbo数据淘汰策略 父主题: 实施步骤
常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级降本诉求,又希望能方便快捷的构建AI训练系统时,可以选择只使用SFS Turbo高性能文件存储支撑AI训练。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储
例行维护 SFS Turbo容量监控及告警 如果SFS Turbo HPC型文件系统存储空间被写满,会影响业务运行,您可以在CES云监控服务上监控SFS Turbo文件系统的容量使用情况,并创建告警规则,当容量使用率超过一定阈值,可以发送邮件、短信等告警到运维人员。当收到容量监控告警时