搜索_华为云

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
附录：指令微调训练常见问题 - AI开发平台ModelArts

附录：指令微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考各个模型深度学习训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
训练数据集预处理说明 - AI开发平台ModelArts

训练数据集预处理说明以 llama2-13b 举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。若未进行数据集预处理，则会自动执行 scripts/llam

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
断点续训练 - AI开发平台ModelArts

断点续训练断点续训练是指因为某些原因导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为{work_dir}/saved_dir_for_ma_output/BaiChuan2-13B/logs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
SFT全参微调超参配置 - AI开发平台ModelArts

SFT全参微调超参配置本章节介绍SFT全参微调前的超参配置，可以根据实际需要修改。 SFT全参微调脚本baichuan2.sh，存放在6.3.904-Ascend/llm_train/AscendSpeed/scripts/baichuan2目录下。可以根据实际需要修改超参配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调
推理前的权重合并转换 - AI开发平台ModelArts

推理前的权重合并转换模型训练完成后，训练的产物包括模型的权重、优化器状态、loss等信息。这些内容可用于断点续训、模型评测或推理任务等。在进行模型评测或推理任务前，需要将训练后生成的多个权重文件合并，并转换成Huggingface格式的权重文件。权重文件的合并转换操作都要求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
训练作业的自定义镜像制作流程 - AI开发平台ModelArts

训练作业的自定义镜像制作流程场景一：预置镜像满足ModelArts训练平台约束，但不满足代码依赖的要求，需要额外安装软件包。具体案例参考使用预置镜像制作自定义镜像用于训练模型。场景二：已有本地镜像满足代码依赖的要求，但是不满足ModelArts训练平台约束，需要适配。具体案例参考已有镜像迁移至ModelArts用于训练模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案问题现象裸金属服务器EulerOS 2.8系统下，使用yum update -y命令，导致软件NetworkManagre-config-server升级到高版本，出现SSH链接故障无法访问。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
单模型性能调优AOE - AI开发平台ModelArts

单模型性能调优AOE 使用AOE工具可以在模型转换阶段对于模型运行和后端编译过程进行执行调优，注意AOE只适合静态shape的模型调优。在AOE调优时，容易受当前缓存的一些影响，建议分两次进行操作，以达到较好的优化效果（第一次执行生成AOE的知识库，在第二次使用时可以复用）。在该

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型在使用Yi模型的chat版本时，由于transformer 4.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
如何在容器中安装依赖包 - AI开发平台ModelArts

如何在容器中安装依赖包在pycharm项目中打开Terminal窗口，在项目根目录执行以下命令安装依赖包。 pip install -r requirements.txt 安装成功后的示意图如图1所示。图1 依赖包安装成功父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 常见问题
推理前的权重合并转换 - AI开发平台ModelArts

推理前的权重合并转换模型训练完成后，训练的产物包括模型的权重、优化器状态、loss等信息。这些内容可用于断点续训、模型评测或推理任务等。在进行模型评测或推理任务前，需要将训练后生成的多个权重文件合并，并转换成Huggingface格式的权重文件。权重文件的合并转换操作都要求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU）本章节介绍如何从0到1制作镜像，并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是Tensorflow，训练使用的资源是GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境

总条数： 2293

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练tokenizer文件说明 - AI开发平台ModelArts

附录：指令微调训练常见问题 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

断点续训练 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

SFT全参微调超参配置 - AI开发平台ModelArts

推理前的权重合并转换 - AI开发平台ModelArts

训练作业的自定义镜像制作流程 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

单模型性能调优AOE - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

如何在容器中安装依赖包 - AI开发平台ModelArts

推理前的权重合并转换 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线