搜索_华为云

SDXL基于Lite Server适配PyTorch NPU的LoRA训练指导（6.3.905） - AI开发平台ModelArts

cd /home/ma-user/sdxl-train/user-job-dir/code sh diffusers_lora_train.sh 训练执行成功如下图所示。图1 训练执行成功父主题：文生图模型训练推理

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理

创建调试训练作业 - AI开发平台ModelArts

创建调试训练作业使用PyCharm ToolKit创建并调试训练作业使用VS Code创建并调试训练作业父主题：使用ModelArts Standard训练模型

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

内容审核模型训练推理 - AI开发平台ModelArts

内容审核模型训练推理 Bert基于Lite Server适配MindSpore Lite推理指导(6.3.910) Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） Paraformer基于Lite Server适配PyTorch NPU

帮助中心 > AI开发平台ModelArts > 最佳实践

训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练脚本存放目录说明不同模型推荐的参数与NPU卡数设置训练tokenizer文件说明父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

预训练任务 - AI开发平台ModelArts

取值说明： pretrain：表示预训练 retrain：表示断点续训 sft：表示SFT微调训练 lora：表示LoRA微调训练 MASTER_ADDR xx.xx.xx.xx 多机必填，单机忽略；指定主节点IP地址，多台机器中需要指定一个节点IP为主节点IP。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 预训练

云上迁移适配故障 - AI开发平台ModelArts

日志报错训练输出路径被其他作业使用 PyTorch1.0引擎提示“RuntimeError: std:exception” MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 使用moxing适配OBS

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明

断点续训练 - AI开发平台ModelArts

TRAIN_ITERS 300 必填。表示训练周期，必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型，retrain表示断点续训练。在AscendSpeed代码目录下执行断点续训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练

训练启动脚本说明和参数配置 - AI开发平台ModelArts

RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

DeepSpeed的核心思想是在单个GPU上实现大规模模型并行训练，从而提高训练速度。DeepSpeed提供了一系列的优化技术，如ZeRO内存优化、分布式训练等，可以帮助用户更好地利用多个GPU进行训练 Accelerate是一种深度学习加速框架，主要针对分布式训练场景。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明

SDXL基于Lite Server适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

checkpoint保存频率的修改命令如下： --checkpointing_steps=5000 训练执行成功如下图所示。图1 训练执行成功父主题：文生图模型训练推理

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

预训练模型当前服务提供安全帽检测预置模型“saved_model.pb”，请勾选预训练模型。确认信息后，单击“开始训练”。图1 模型训练模型训练一般需要运行一段时间，等模型训练完成后，“应用开发>模型训练”页面下方显示训练详情。

帮助中心 > 企业级AI应用开发专业套件 ModelArts Pro > 用户指南 > HiLens套件 > HiLens安全帽检测技能

训练启动脚本说明和参数配置 - AI开发平台ModelArts

RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考

创建生产训练作业（新版页面） - AI开发平台ModelArts

“预置框架”：通过预置框架或镜像创建训练作业。 “自定义”：通过自定义镜像创建训练作业。当平台预置的基础镜像中的软件无法满足实际程序运行需求时，支持自定义镜像进行训练，所需镜像需提前上传到SWR容器镜像服务上，详细镜像制作指导请参见准备模型训练镜像。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

训练 - 弹性文件服务 SFS

训练上传数据至OBS并预热到SFS Turbo中创建训练任务父主题：实施步骤

帮助中心 > 弹性文件服务 SFS > 最佳实践 > 面向AI场景使用OBS+SFS Turbo的存储加速实践 > 实施步骤

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel）本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

执行训练任务（历史版本） - AI开发平台ModelArts

如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定MA_TRAIN_AUTO_RESUME =1和 ${USER_CONVERTED_CKPT_PATH}训练过程的权重保存路径，加载路径一致。故障快恢依赖训练过程的权重保存路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务

查询训练作业参数列表 - AI开发平台ModelArts

查询训练作业参数列表功能介绍根据指定条件查询用户创建的训练作业参数。 URI GET /v1/{project_id}/training-job-configs 参数说明如表1所示。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置

执行预训练任务 - AI开发平台ModelArts

步骤二修改训练超参配置以llama2-70b和llama2-13b预训练为例，执行脚本为0_pl_pretrain_70b.sh 和0_pl_pretrain_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）

SDXL基于Lite Server适配PyTorch NPU的LoRA训练指导（6.3.905） - AI开发平台ModelArts

创建调试训练作业 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

内容审核模型训练推理 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

各个模型深度学习训练加速框架的选择 - AI开发平台ModelArts

SDXL基于Lite Server适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

训练模型 - 企业级AI应用开发专业套件 ModelArts Pro

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建生产训练作业（新版页面） - AI开发平台ModelArts

训练 - 弹性文件服务 SFS

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线