搜索_华为云

准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

购买共享存储硬盘资源（多机训练场景）用户若购买开通多个节点机器资源，并使用多机进行分布式训练时，则需要用户购买可挂载的存储硬盘资源，以实现多机共同访问同一存储硬盘资源。ModelArts Lite DevServer 支持配置的存储方案请参考配置Lite Server存储。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
训练日志失败分析 - AI开发平台ModelArts

针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。参考案例解决：会提供当前故障对应的指导文档链接，请参照文档中的解决方案修复问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
使用基础镜像 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
获取训练作业日志的文件名 - AI开发平台ModelArts

单机作业日志仅有一个文件，分布式作业日志有多个文件。请求示例如下以获取“job_id”为10，“version_id”为10的作业日志文件为例。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统，详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统，详细操作指导请参考创建SFS Turbo文件系统。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

Ascend HCCL RANK_TABLE_FILE文件说明 Ascend HCCL RANK_TABLE_FILE文件提供Ascend分布式训练作业的集群信息，用于Ascend芯片分布式通信，可以被HCCL集合通信库解析。该文件格式有模板一和模板二两个版本。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
Standard模型训练 - AI开发平台ModelArts

ModelArts Standard模型训练支持大规模训练作业，提供高可用的训练环境支持单机多卡、多机多卡的分布式训练，有效加速训练过程支持训练作业的故障感知、故障诊断与故障恢复，包含硬件故障与作业卡死故障，并支持进程级恢复、容器级恢复与作业级恢复，提供容错与恢复能力，保障用户训练作业的长稳运行

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

针对于分布式场景，容错检查会检查本次训练作业的全部计算节点。推理部署故障恢复用户部署的在线推理服务运行过程中，如发生硬件故障导致推理实例故障，ModelArts会自动检测到并迁移受影响实例到其它可用节点，实例启动后恢复推理请求处理能力。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
ModelArts - AI开发平台ModelArts
ModelArts - AI开发平台ModelArts

ModelArts-成长地图 | 华为云 ModelArts ModelArts是面向开发者的一站式AI开发平台，为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期

 帮助中心 > AI开发平台ModelArts > 成长地图
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

Ascend-Powered-Engine框架单机启动命令和分布式启动命令无区别。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

它针对大规模的模型和分布式训练进行了优化，可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略，包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
创建生产训练作业 - AI开发平台ModelArts

当“实例数 > 1”时，创建的是分布式训练作业，更多分布式训练配置请参见分布式训练功能介绍。永久保存日志选择CPU或者GPU资源时，支持选择是否关闭“永久保存日志”开关。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
约束与限制 - AI开发平台ModelArts

仅支持PyTorch和MindSpore框架的分布式训练和调测，如果MindSpore要进行多机分布式训练调试，则每台机器上都必须有8张卡。使用自定义镜像创建训练作业时，镜像大小推荐15GB以内，最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。

帮助中心 > AI开发平台ModelArts > 产品介绍
资源选择推荐 - AI开发平台ModelArts

多机多卡：大数据量（1T训练数据）、高算力场景（4台8卡Vnt1），存储方案使用“SFS（存放数据）+普通OBS桶（存放代码）”，采用分布式训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
获取训练作业支持的公共规格 - AI开发平台ModelArts

表6 FlavorInfoResponse 参数参数类型描述 max_num Integer 可以选择的最大节点数量（max_num，为1代表不支持分布式）。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
ECS中构建新镜像（可选） - AI开发平台ModelArts

镜像名称>:<版本名称> 示例： docker push swr.cn-southwest-2.myhuaweicloud.com/ma-group/pytorch_2_3_ascend:20240606 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

通过OBS与SFS Turbo存储联动，可以将最新的训练数据导入到SFS Turbo，然后在训练作业中挂载SFS Turbo到容器对应ckpt目录，实现分布式读取训练数据文件。创建SFS Turbo文件系统前提条件：创建SFS Turbo文件系统前，确认已有可用的VPC。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作

总条数： 665

上一页
1
2
3
4
5
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备环境 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

获取训练作业日志的文件名 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

ModelArts - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

ECS中构建新镜像（可选） - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线