检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产品优势 ModelArts服务具有以下产品优势。 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理。 大规模分布式训练能力,加速大模型研发。 提供高性价比国产算力。 多年软硬件经验沉淀,AI场景极致优化。 加速套件,训练、推理、数据访问多维度加速。 一站式端到端生产工具链,一致性开发体验
计费说明 ModelArts是面向AI开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。 ModelArts服务的计费方式简单、灵活,您既可以选择按实际使用时长
检查或者硬件周期性检查任一检查项出现故障时,隔离故障硬件并重新下发训练作业。针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。 下图中有四个场景,其中场景四为正常训练作业失败场景,其他三个场景下可开启容错功能进行训练作业自动恢复。 场景一:环境预检测失败、硬件检测出现故
(可选)配置镜像预热 Lite Cluster资源池支持镜像预热功能,镜像预热可实现将镜像提前在资源池节点上拉取好,在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。 操作步骤 在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池
写入到SFS Turbo缓存中,并可被下游业务环节继续读取并处理,结果数据可以异步方式导出到关联的OBS对象存储中进行长期低成本存储,从而加速训练场景下加速OBS对象存储中的数据访问 ModelArts Standard模型训练提供便捷的作业管理能力,提升用户模型训练的开发效率
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。 准备一个预装OpenSSH的自
部署在线服务时,您可以增加“实例数”。 如果实例数设置为1,表示后台的计算模式是单机模式;如果实例数设置大于1,表示后台的计算模式为分布式的。您可以根据实际需求进行选择。 推理速度与模型复杂度强相关,您可以尝试优化模型提高预测速度。 ModelArts中提供了模型版本管理的功能,方便溯源和模型反复调优。
Standard训练模型 模型训练使用流程 准备模型训练代码 准备模型训练镜像 创建调试训练作业 创建算法 创建生产训练作业 分布式模型训练 模型训练存储加速 增量模型训练 自动模型优化(AutoSearch) 模型训练高可靠性 管理模型训练作业
SDK参考》 OBS SDK OBS服务提供的SDK,对OBS进行操作。由于ModelArts较多功能需使用OBS中存储的数据,用户可使用OBS SDK进行调用,使用OBS存储您的数据。 OBS提供了多种语言SDK供选择,开发者可根据使用习惯下载OBS SDK进行调用。使用OBS SDK前,需下载OBS
Lite Cluster资源使用 在Lite Cluster资源池上使用Snt9B完成分布式训练任务 在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 在Lite Cluster资源池上使用Snt9B完成推理任务
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户如果购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户如果购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server支持配置的存储方案请参考配置Lite Server存储。其中访问
购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多机共同访问同一存储硬盘资源。ModelArts Lite Server 支持配置的存储方案请参考配置Lite Server存储。其中访问