搜索_华为云

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，有些模型需要对模型的tokenizer文件，或者模型的配置文件进行修改，具体的修改如下： Qwen-VL 修改文件modeling_qwen.py： # 将36 37 两行注释部分 36 SUPPORT_BF16 = SUPPORT_CUDA

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

正常训练过程如下图所示。训练完成后，关注loss值，loss曲线收敛，记录总耗时和单步耗时。训练过程中，训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。图7 正常训练过程训练完成后权重保存在自动生成的目录，例如：t2v-f17-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练步骤1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）
执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（推荐）新的训练方式将统一管理训练日志、训练结果和训练配置，使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器（默认开启）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
SFT全参微调训练 - AI开发平台ModelArts

动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选）本章节主要介绍通过DockerFile文件构建训练镜像，将训练过程中依赖包封装使用，过程中需要连接互联网git clone，请确保环境可以访问公网，详解操作如下：进入代码包Dockerfile文件同级目录： cd /home/ma-user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

Shell中单击回车键即可恢复正常。图3 路径异常如何使训练作业保持运行中状态由于需要训练作业处于“运行中”状态才能登录Cloud Shell，因此本文介绍如何使训练作业保持运行中状态，方便您快速通过Cloud Shell登录运行中的训练容器。通过Sleep命令使训练作业保持运行如果训练作业使用的是预置框架：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询训练作业镜像保存任务 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String 训练作业的任务名称。可从训练作业详情中的status.tasks字段中获取。请求参数无响应参数状态码：200

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

Server适配PyTorch NPU训练微调指导（6.3.912）方案概览本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展LLaVA-NeXT模型的训练过程，包括pretrain_clip训练和Finetune_onevision训练。约束限制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成的Megatron格式权重(${user

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

全参微调：直接在模型上训练，影响模型全量参数的微调训练，效果较好，收敛速度较慢，训练时间较长。 LoRA微调：冻结原模型，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数，效果接近或略差于全参训练，收敛速度快，训练时间短。增量预训练：在现有预训练模型基础上，利用新数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比例”后，“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。 “训练集比例”即用于训练模型的样本数据比例；“验证集比例”即用于验证模型的样本数据比例。“训练验证比例”会影响训练模板的性能。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
执行预训练任务 - AI开发平台ModelArts

手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。步骤三启动训练脚本请根据步骤二修改训练超参配置修改超参值后，再启动训练脚本。Llama2-70B建议为4机32卡训练。多机启动以 Llama2-70B 为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
执行预训练任务 - AI开发平台ModelArts

手动修改训练参数和tokenizer文件，具体请参见训练tokenizer文件说明。步骤三启动训练脚本请根据步骤二修改训练超参配置修改超参值后，再启动训练脚本。Llama2-70B建议为4机32卡训练。多机启动以 Llama2-70B 为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
查询预置算法 - AI开发平台ModelArts

model_train_dataset String 模型训练数据集。 model_dataset_format String 使用模型需要的数据集格式。 model_description_url String 模型描述链接。 parameter String 模型的运行参数。当为自定义镜像训练作业的时候，此参数为容器环境变量。该样例请参考请求示例。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

el。 log_url：可选参数，一个OBS地址，本地训练过程中，SDK会自动将训练的日志上传到该位置；但是如果训练任务运行在Ascend上，则是必选参数。 job_description：可选参数，训练任务的描述。开始训练。 estimator.fit(inputs=[input_data]

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）

总条数： 1046

上一页
1
...
17
18
19
...
53
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练tokenizer文件说明 - AI开发平台ModelArts

Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

使用Cloud Shell调试生产训练作业 - AI开发平台ModelArts

查询训练作业镜像保存任务 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

在ModelArts Studio基于Qwen2-7B模型实现新闻自动分类 - AI开发平台ModelArts

在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线