搜索_华为云

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

父主题：专属资源池创建训练作业

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业

训练日志失败分析 - AI开发平台ModelArts

训练日志失败分析在ModelArts Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

预训练任务 - AI开发平台ModelArts

取值说明： pretrain：表示预训练 retrain：表示断点续训 sft：表示SFT微调训练 lora：表示LoRA微调训练 MASTER_ADDR xx.xx.xx.xx 多机必填，单机忽略；指定主节点IP地址，多台机器中需要指定一个节点IP为主节点IP。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练

训练迁移适配 - AI开发平台ModelArts

单卡训练启动方式： torchrun --nnodes=1 --nproc_per_node=1 train.py --model DiT-XL/2 --data-path imagenet/train --global-batch-size 16 多卡训练启动方式： torchrun

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优

创建调试训练作业 - AI开发平台ModelArts

创建调试训练作业使用PyCharm ToolKit创建并调试训练作业使用VS Code创建并调试训练作业父主题：使用ModelArts Standard训练模型

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明

训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明以llama2-13b举例，使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。若已完成权重转换，则直接执行预训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明

断点续训练 - AI开发平台ModelArts

TRAIN_ITERS 300 必填。表示训练周期，必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型，retrain表示断点续训练。在AscendSpeed代码目录下执行断点续训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练

单机多卡 - AI开发平台ModelArts

单机多卡准备镜像上传数据和算法至SFS（首次使用时需要）使用Notebook进行代码调试创建训练任务父主题：调试与训练

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练

预训练数据处理 - AI开发平台ModelArts

预训练数据处理训练前需要对数据集进行预处理，转化为.bin和.idx格式文件，以满足训练要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel）本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

查询训练作业参数列表 - AI开发平台ModelArts

查询训练作业参数列表功能介绍根据指定条件查询用户创建的训练作业参数。 URI GET /v1/{project_id}/training-job-configs 参数说明如表1所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练tokenizer文件说明断点续训和故障快恢说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

预训练模型当前服务提供安全帽检测预置模型“saved_model.pb”，请勾选预训练模型。确认信息后，单击“开始训练”。图1 模型训练模型训练一般需要运行一段时间，等模型训练完成后，“应用开发>模型训练”页面下方显示训练详情。

帮助中心 > 企业级AI应用开发专业套件 ModelArts Pro > 用户指南 > HiLens套件 > HiLens安全帽检测技能

LoRA微调训练 - AI开发平台ModelArts

在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

训练迁移适配 - AI开发平台ModelArts

创建调试训练作业 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

单机多卡 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线