搜索_华为云

计费说明 - AI开发平台ModelArts
计费说明 - AI开发平台ModelArts

计费说明 ModelArts是面向AI开发者的一站式开发平台，提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期AI工作流。

帮助中心 > AI开发平台ModelArts > 产品介绍
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

大规模分布式训练能力，加速大模型研发。提供高性价比国产算力。多年软硬件经验沉淀，AI场景极致优化。加速套件，训练、推理、数据访问多维度加速。

帮助中心 > AI开发平台ModelArts > 产品介绍
（可选）配置镜像预热 - AI开发平台ModelArts

（可选）配置镜像预热 Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
训练作业容错检查 - AI开发平台ModelArts

针对于分布式场景，容错检查会检查本次训练作业的全部计算节点。下图中有四个场景，其中场景四为正常训练作业失败场景，其他三个场景下可开启容错功能进行训练作业自动恢复。场景一：环境预检测失败、硬件检测出现故障，系统隔离所有故障节点并重新下发训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

如果实例数设置为1，表示后台的计算模式是单机模式；如果实例数设置大于1，表示后台的计算模式为分布式的。您可以根据实际需求进行选择。推理速度与模型复杂度强相关，您可以尝试优化模型提高预测速度。 ModelArts中提供了模型版本管理的功能，方便溯源和模型反复调优。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
Lite Cluster资源使用 - AI开发平台ModelArts

Lite Cluster资源使用在Lite Cluster资源池上使用Snt9B完成分布式训练任务在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练在Lite Cluster资源池上使用Snt9B完成推理任务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

DeepSpeed提供了一系列的优化技术，如ZeRO内存优化、分布式训练等，可以帮助用户更好地利用多个GPU进行训练 Accelerate是一种深度学习加速框架，主要针对分布式训练场景。Accelerate的核心思想是通过模型并行和数据并行来实现分布式训练，从而提高训练速度。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练作业调测 - AI开发平台ModelArts

训练作业调测使用SDK调测单机训练作业使用SDK调测多机分布式训练作业父主题：训练作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
使用ModelArts Standard训练模型 - AI开发平台ModelArts

使用ModelArts Standard训练模型模型训练使用流程准备模型训练代码准备模型训练镜像创建调试训练作业创建算法创建生产训练作业分布式模型训练模型训练存储加速增量模型训练自动模型优化（AutoSearch）模型训练高可靠性管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

详细指导：《OBS SDK参考》 MoXing MoXing是ModelArts自研的组件，是一种轻型的分布式框架，构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK
ModelArts中常用概念 - AI开发平台ModelArts

MoXing MoXing是ModelArts自研的组件，是一种轻型的分布式框架，构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上，使得这些计算引擎分布式性能更高，同时易用性更好。

帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
使用基础镜像 - AI开发平台ModelArts

/scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
如何关闭Mox的warmup - AI开发平台ModelArts

原因分析 Tensorflow分布式有多种执行模式，mox会通过4次执行50 step记录执行时间，选择执行时间最少的模型。处理方法创建训练作业时，在“运行参数”中增加参数“variable_update=parameter_server”来关闭Mox的warmup。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
使用基础镜像 - AI开发平台ModelArts

/scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
业务代码问题 - AI开发平台ModelArts

pid 46212 ) is killed by signal: Killed BP” 日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” 日志提示“No module name 'unidecode'” 分布式

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

范围本文涉及PyTorch训练的单卡和分布式业务迁移到昇腾的业务范围。当前针对常见的开源LLM/AIGC等领域的开源模型，ModelArts已经提供了迁移好的开箱即用模型，且保证了较优的精度和性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
训练作业进程被kill - AI开发平台ModelArts

您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像

总条数： 665

上一页
1
2
3
4
5
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

计费说明 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

Lite Cluster资源使用 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

训练作业调测 - AI开发平台ModelArts

使用ModelArts Standard训练模型 - AI开发平台ModelArts

ModelArts SDK、OBS SDK和MoXing的区别是什么？ - AI开发平台ModelArts

ModelArts中常用概念 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线