搜索_华为云

自动学习训练作业失败 - AI开发平台ModelArts

训练数据的csv文件不能包含表头，否则会导致训练失败。当前由于特征筛选算法限制，标签列建议放在数据集最后一列，否则可能导致训练失败。由于ModelArts会自动对数据进行一些过滤，过滤后再启动训练作业。当预处理后的数据不满足训练要求时，也会导致训练作业运行失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练

数字人模型训练推理 - AI开发平台ModelArts

数字人模型训练推理 Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导（6.3.907） Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践

LoRA微调训练 - AI开发平台ModelArts

表1 必须修改的训练超参配置参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）

LoRA微调训练 - AI开发平台ModelArts

表1 必须修改的训练超参配置参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/work/training_data/alpaca_gpt4_data.json 必须修改。训练时指定的输入数据路径。请根据实际规划修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）

Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

可以使用上一步3中的训练结果，也可以直接下载官方提供的预训练权重来使用。具体训练命令如下。 python wav2lip_train.py --data_root ./lrs2_preprocessed/main/ --checkpoint_dir .

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理

预训练数据处理 - AI开发平台ModelArts

预训练数据处理训练前需要对数据集进行预处理，转化为.bin和.idx格式文件，以满足训练要求。这里以Qwen-14B为例，对于Qwen-7B和Qwen-72B，操作过程与Qwen-14B相同，只需修改对应参数即可。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练

更新算法 - AI开发平台ModelArts

父主题：训练管理

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

准备模型训练镜像 - AI开发平台ModelArts

场景二：已有本地镜像满足代码依赖的要求，但是不满足ModelArts训练平台约束，需要适配。具体案例参考已有镜像迁移至ModelArts用于训练模型。场景三：当前无可使用的镜像，需要从0制作镜像（既需要安装代码依赖，又需要制作出的镜像满足ModelArts平台约束）。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

预训练任务 - AI开发平台ModelArts

取值说明： pretrain：表示预训练 retrain：表示断点续训 sft：表示SFT微调训练 lora：表示LoRA微调训练 MASTER_ADDR xx.xx.xx.xx 多机必填，单机忽略；指定主节点IP地址，多台机器中需要指定一个节点IP为主节点IP。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练

LoRA微调训练 - AI开发平台ModelArts

在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明

断点续训练 - AI开发平台ModelArts

TRAIN_ITERS 300 必填。表示训练周期，必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型，retrain表示断点续训练。在AscendSpeed代码目录下执行断点续训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练

训练性能测试 - AI开发平台ModelArts

qwen2.5-7b-sft-4096-lora-313T-20241028_164746-0.txt，打印吞吐值及训练参数 qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt，打印训练过程中AICORE利用率

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错问题现象 ModelArts训练作业无法解析参数，遇到如下报错，导致无法正常运行： error: unrecognized arguments: --data_url=xxx://xxx/xxx error: unrecognized

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

管理训练容器环境变量 - AI开发平台ModelArts

管理训练容器环境变量什么是环境变量本章节展示了训练容器环境中预置的环境变量，方便用户查看，主要包括以下类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

训练权重转换说明 - AI开发平台ModelArts

训练权重转换说明以 llama2-13b 举例，使用训练作业运行 obs_pipeline.sh 脚本后，脚本自动执行权重转换，并检查是否已经完成权重转换的过程。若已完成权重转换，则直接执行训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明

复制、停止或删除训练作业 - AI开发平台ModelArts

复制训练作业当对创建的训练作业不满意时，您可以单击操作列的复制，重新创建训练作业。在重创训练作业页面，会自动填入上一次训练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业

预训练数据处理 - AI开发平台ModelArts

预训练数据处理训练前需要对数据集进行预处理，转化为.bin和.idx格式文件，以满足训练要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明以llama2-13b举例，使用训练作业运行0_pl_pretrain_13b.sh脚本。脚本同样还会检查是否已经完成权重转换的过程。如果已完成权重转换，则直接执行预训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明

自动学习训练作业失败 - AI开发平台ModelArts

数字人模型训练推理 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

Wav2Lip训练基于Lite Server适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

更新算法 - AI开发平台ModelArts

准备模型训练镜像 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

训练性能测试 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

训练权重转换说明 - AI开发平台ModelArts

复制、停止或删除训练作业 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线