AI开发平台MODELARTS-Standard模型训练
Standard模型训练
ModelArts Standard模型训练提供容器化服务和计算资源管理能力,负责建立和管理机器学习训练工作负载所需的基础设施,减轻用户的负担,为用户提供灵活、稳定、易用和极致性能的深度学习训练环境。通过ModelArts Standard模型训练,用户可以专注于开发、训练和微调模型。
ModelArts Standard模型训练支持大规模训练作业,提供高可用的训练环境
- 支持单机多卡、多机多卡的分布式训练,有效加速训练过程
- 支持训练作业的故障感知、故障诊断与故障恢复,包含硬件故障与作业卡死故障,并支持进程级恢复、容器级恢复与作业级恢复,提供容错与恢复能力,保障用户训练作业的长稳运行
- 提供训练作业断点续训与增量训练能力,即使训练因某些原因中断,也可以基于checkpoint接续训练,保障需要长时间训练的模型的稳定性和可靠性,避免重头训练耗费的时间与计算成本
- 支持训练数据使用SFS Turbo文件系统进行数据挂载,训练作业产生的中间和结果等数据可以直接高速写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储,从而加速训练场景下加速OBS对象存储中的数据访问
ModelArts Standard模型训练提供便捷的作业管理能力,提升用户模型训练的开发效率
- 提供算法资产的管理能力,支持通过算法资产、自定义算法、AI Gallery订阅算法创建训练作业,使训练作业的创建更灵活、易用
- 提供实验管理能力,用户通常需要调整数据集、调整超参等进行多轮作业从而选择最理想的作业,模型训练支持统一管理多个训练作业,方便用户选择最优的模型
- 提供训练作业的事件信息(训练作业生命周期中的关键事件点)、训练日志(训练作业运行过程和异常信息)、资源监控(资源使用率数据)、Cloud Shell(登录训练容器的工具)等能力,方便用户更清楚得了解训练作业运行过程,并在遇到任务异常时更加准确的排查定位问题
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_创建训练作业_如何创建训练作业
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts分布式训练_分布式训练介绍_分布式调测
- 华为云内容审核服务_内容审核有什么作用_华为云内容审核的优势
- AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办