搜索_华为云

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
创建训练任务 - AI开发平台ModelArts

单击“提交”，在“信息确认”页面，确认训练作业的参数信息，确认无误后单击“确定”。训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
执行微调训练任务 - AI开发平台ModelArts

执行微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoi

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业创建训练作业训练作业调测查询训练作业列表查询训练作业详情更新训练作业描述删除训练作业终止训练作业查询训练日志查询训练作业的运行指标父主题：训练管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：0_pl_pretrain_13b.sh训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。如果未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练作业运行失败排查指导 - AI开发平台ModelArts

训练作业运行失败排查指导问题现象训练作业的“状态”出现“运行失败”的现象。原因分析及处理方法查看训练作业的“日志”，出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，使用训练作业运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面上展

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理的过程。若已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理的过程。若已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以 llama2-13b 举例，运行：0_pl_pretrain_13b.sh 训练脚本后，脚本检查是否已经完成数据集预处理的过程。若已完成数据集预处理，则直接执行预训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
预训练任务 - AI开发平台ModelArts

kenizer文件，具体请参见训练tokenizer文件说明。步骤3 启动训练脚本请根据步骤2 修改训练超参配置修改超参值后，再启动训练脚本。Llama2-70B建议为4机32卡训练。多机启动以 Llama2-70B 为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 4 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。对应训练参数 pipe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
重建、停止或删除训练作业 - AI开发平台ModelArts

当对创建的训练作业不满意时，您可以单击操作列的重建，重新创建训练作业。在重创训练作业页面，会自动填入上一次训练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止”，停止正在运行中的训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
开发用于预置框架训练的代码 - AI开发平台ModelArts

资源“/cache”目录的大小。训练输出路径参数建议设置一个空目录为训练输出路径。在训练代码中，您需要解析输出路径参数。系统后台会自动上传训练输出至指定的训练输出路径，请保证您设置的桶路径有写入权限和读取权限。在ModelArts中，训练代码需包含以下步骤：（可选）引入依赖

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
查询训练作业版本列表 - AI开发平台ModelArts

调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String 训练作业的名称。 job_desc String 训练作业的描述信息。 version_count Long 训练作业的版本数。 versions JSON Array 训练作业的运行版本参数。该样例请参考响应样例。属性详情参见表4。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

总条数： 1684

上一页
1
...
6
7
8
...
85
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

各个模型训练前文件替换 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练作业 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

查询训练作业版本列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线