华为云用户手册

AI开发平台MODELARTS-准备数据:Alpaca数据

Alpaca数据本教程使用到的训练数据集是Alpaca数据集。Alpaca是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优，使语言模型更好地遵循指令。训练数据集下载：https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet，数据大小：24M左右。 SFT全参微调、LoRA微调训练数据集下载： https://huggingface.co/datasets/silk-road/alpaca-data-gpt4-chinese/blob/main/Alpaca_data_gpt4_zh.jsonl，数据大小：42M左右。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备数据:自定义数据

自定义数据用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是id、url、title和text。可以指定–json-key标志来选择用于训练的列。 { 'id': '1', 'url': 'https://simple.wikipedia.org/wiki/April', 'title': 'April', 'text': 'April is the fourth month...' } 经下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下：进入到/home/ma-user/ws/目录下。创建目录“training_data/pretrain”，并将预训练原始数据放置在此处。 mkdir -p training_data/pretrain 创建目录“training_data/finetune”，并将微调训练原始数据放置在此处 mkdir -p training_data/finetune 数据存放参考目录结构如下： ${workdir}（例如/home/ma-user/ws ） ├── training_data #原始数据目录 ├── pretrain #预训练加载的数据 ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练原始数据文件 ├── finetune #微调训练加载的数据 ├── Alpaca_data_gpt4_zh.jsonl #微调训练原始数据文件

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:上传代码到工作环境

上传代码到工作环境使用root用户以SSH的方式登录DevServer。将AscendSpeed代码包AscendCloud-3rdLLM-xxx-xxx.zip上传到${workdir}目录下并解压缩，如：/home/ma-user/ws目录下，以下都以/home/ma-user/ws为例。 unzip AscendCloud-3rdLLM-xxx-xxx.zip #解压缩，-xxx-xxx表示软件包版本号和时间戳上传tokenizers及权重和词表文件到工作目录中的/home/ma-user/ws/tokenizers/GLM3-6B目录。具体步骤如下：进入到${workdir}目录下，如：/home/ma-user/ws。将tokenizers及权重和词表文件放置此处。 cd /home/ma-user/ws mkdir -p tokenizers/GLM3-6B

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:权重和词表文件介绍

权重和词表文件介绍下载完毕后的HuggingFace原始权重文件包含以下内容，此处以GLM3-6B为例。 GLM3-6B ├── config.json ├── configuration_chatglm.py ├── model-00001-of-00007.safetensors ├── model-00002-of-00007.safetensors ├── model-00003-of-00007.safetensors ├── model-00004-of-00007.safetensors ├── model-00005-of-00007.safetensors ├── model-00006-of-00007.safetensors ├── model-00007-of-00007.safetensors ├── modeling_chatglm.py ├── MODEL_LICENSE ├── pytorch_model-00001-of-00007.bin ├── pytorch_model-00002-of-00007.bin ├── pytorch_model-00003-of-00007.bin ├── pytorch_model-00004-of-00007.bin ├── pytorch_model-00005-of-00007.bin ├── pytorch_model-00006-of-00007.bin ├── pytorch_model-00007-of-00007.bin ├── pytorch_model.bin.index.json ├── quantization.py ├── README.md ├── special_tokens_map.json ├── tokenization_chatglm.py ├── tokenizer_config.json ├── tokenizer.model 工作目录结构如下 ${workdir}（例如/home/ma-user/ws ） ├──llm_train ├── AscendSpeed #代码目录 ├── AscendSpeed #训练依赖的三方模型库 ├── ModelLink #AscendSpeed代码目录 ├── scripts/ #训练启动脚本 ├── processed_for_ma_input ├── GLM3-6B ├── data #预处理后数据 ├── pretrain #预训练加载的数据 ├── finetune #微调加载的数据 ├──converted_weights #HuggingFace格式转换magatron格式后权重文件 ├── saved_dir_for_ma_output #训练输出保存权重，根据实际训练需求设置 ├── GLM3-6B ├── logs #训练过程中日志（loss、吞吐性能） ├── lora #lora微调输出权重 ├── sft #增量训练输出权重 ├── pretrain #预训练输出权重 ├── tokenizers #原始权重及tokenizer目录 ├── GLM3-6B ├── training_data #原始数据目录 ├── pretrain #预训练加载的数据 ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练原始数据文件 ├── finetune #微调训练加载的数据 ├── Alpaca_data_gpt4_zh.jsonl #微调训练原始数据文件

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:获取数据及代码

获取数据及代码表1 准备代码代码包名称代码说明下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E网站。说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。权重和词表文件包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的：将文本转换为模型可以处理的数据。模型只能处理数字，因此标记器(Tokenizer)需要将文本输入转换为数字数据。 chatglm3-6b-hf 这个路径下既有权重，也有Tokenizer，全部下载。具体内容参见权重和词表文件介绍。本文档前向兼容AscendCloud-3rdLLM-6.3.T041版本，获取路径：Support网站。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:代码目录介绍

代码目录介绍 AscendCloud-3rdLLM代码包结构介绍如下： xxx-Ascend #xxx表示版本号，例如6.3.T041 ├──llm_evaluation #推理评测代码包 ├──benchmark_eval #精度评测 ├──benchmark_tools #性能评测 ├──llm_train #模型训练代码包 ├──AscendSpeed #基于AscendSpeed的训练代码 ├──AscendSpeed #加速库 ├──ModelLink #基于ModelLink的训练代码 ├──scripts/ #训练需要的启动脚本本教程需要使用到的训练相关代码存放在llm_train/AscendSpeed目录下，具体文件介绍如下： ├──llm_train #模型训练代码包 ├──AscendSpeed #基于AscendSpeed的训练代码 ├──AscendSpeed #加速库 ├──ModelLink #基于ModelLink的训练代码，数据预处理脚本 ├──scripts/ #训练需要的启动脚本，调用ModelLink ├──glm3 #glm3的训练代码 ├──glm3_base.sh #glm3训练脚本

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:操作流程

操作流程图1 操作流程图表1 操作任务流程说明阶段任务说明准备工作准备环境本教程案例是基于ModelArts Lite DevServer运行的，需要购买并开通DevServer资源。准备代码准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用Alpaca数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、断点续训及性能查看。微调训练 SFT全参微调介绍如何进行SFT全参微调。 LoRA微调训练介绍如何进行LoRA微调训练。推理前的权重转换 - 模型训练完成后，可以将训练产生的权重文件用于推理。推理前参考本章节，将训练后生成的多个权重文件合并，并转换成Huggingface格式的权重文件。如果无推理任务或者使用开源Huggingface权重文件进行推理，可以忽略此章节。和本文档配套的推理文档请参考《开源大模型基于DevServer的推理通用指导》。

AI开发平台MODELARTS GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
AI开发平台MODELARTS-LoRA微调训练:Step3 LoRA微调超参配置

Step3 LoRA微调超参配置 LoRA微调训练脚本qwen.sh，存放在llm_train/AscendSpeed/scripts/qwen/目录下。训练前，可以根据实际需要修改超参配置。微调任务配置，操作同预训练配置类似，不同点为RUN_TYPE类型不同，以及输入输出路径的配置的不同。表1 LoRA微调超参配置参数示例值参数说明 DATASET_PATH /home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft 必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名，不加文件类型后缀。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/tokenizers/Qwen-14B 必填。加载tokenizer时，tokenizer存放地址。请根据实际规划修改。 MODEL_TYPE 14B 必填。表示模型加载类型，根据实际填写7B、14B或72B。 TRAIN_ITERS 300 非必填。训练迭代周期。根据实际需要修改。 MBS 4 非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。默认值为4。取值建议如下： Qwen-14B：4 Qwen-7B：2 Qwen-72B：1 GBS 64 非必填。表示训练中所有机器一个step所处理的样本量，影响每一次训练迭代的时长。对于PP（流水线并行）值大于1的场景，适当增大GBS值吞吐性能会有所提升。 TP 8 非必填。表示张量并行。默认值为8，取值建议： Qwen-14B：8 Qwen-7B：4 Qwen-72B：8 PP 1 非必填。表示流水线并行。默认值为1，取值建议： Qwen-14B：1 Qwen-7B：1 Qwen-72B：大于等于5，例如5机填写5，8机填8。 RUN_TYPE lora 必填。表示训练类型。lora表示LoRA微调。 MASTER_ADDR localhost 多机必填。主节点IP地址，多台机器中指定一个节点IP为主节点IP。一般指定第一个节点IP为主节点IP。 NNODES 1 多机必填。节点总数，如为双机，则写2。单机默认是1。 NODE_RANK 0 多机必填。节点序号，当前节点ID，一般从0开始。单机默认是0。以Qwen-72B 5机训练为例，节点ID依次为（0 1 2 3 4）；一般ID为0的节点设置为主节点IP。 MODEL_PATH /home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights 必填。加载的权重文件路径。SFT微调权重转换章节中将HuggingFace格式转化为Megatron格式的权重文件。 WORK_DIR /home/ma-user/ws 非必填。容器的工作目录，训练的权重文件保存在此路径下。默认值为：/home/ma-user/ws。 SEQ_LEN 4096 非必填。默认值为4096。在qwen.sh脚本默认情况下Lora微调的配置为： --lora-r 16 --lora-alpha 32 LoRA微调训练的计算量要小于预训练，可以适当增加MBS的值，这里建议：对于7B：TP=4 PP=1 MBS=2 对于14B：TP=8 PP=1 MBS=4 对于72B：TP=8 PP=5 MBS=1

AI开发平台MODELARTS
AI开发平台MODELARTS-LoRA微调训练:Step2 LoRA微调权重转换

Step2 LoRA微调权重转换 LoRA微调训练前，需要先把训练权重文件转换为Megatron格式。 LoRA微调训练和SFT全参微调使用的是同一个HuggingFace权重文件转换为Megatron格式后的结果也是通用的。如果在SFT微调任务中已经完成了HuggingFace权重转换操作，此处无需重复操作，可以直接使用SFT微调中的权重转换结果。如果前面没有执行HuggingFace权重转换任务，可以参考SFT微调权重转换章节完成。

AI开发平台MODELARTS
AI开发平台MODELARTS-LoRA微调训练:Step4 启动训练脚本

Step4 启动训练脚本请根据表1修改超参值后，再启动训练脚本。单机启动以Qwen-14B为例，单机SFT微调启动命令如下。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。 MODEL_TYPE=14B RUN_TYPE=lora DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights TRAIN_ITERS=300 MBS=4 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 其中 MODEL_TYPE 、RUN_TYPE、DATA_PATH、TOKENIZER_MODEL、MODEL_PATH为必填；TRAIN_ITERS、MBS、GBS、TP、PP、SEQ_LEN为非必填，有默认值。多机启动以Qwen-14B为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行，此处以双机为例。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=0 MODEL_TYPE=14B RUN_TYPE=lora DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights TRAIN_ITERS=300 MBS=4 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh ... ... # 第二台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=1 MODEL_TYPE=14B RUN_TYPE=lora DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights TRAIN_ITERS=300 MBS=4 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、 NODE_RANK、 NODE_RANK、MODEL_TYPE 、RUN_TYPE、DATASET_PATH、TOKENIZER_PATH、MODEL_PATH为必填；TRAIN_ITERS、MBS、GBS、TP、PP、WORK_DIR为非必填，有默认值。训练完成后，请参考查看日志和性能章节，查看LoRA微调训练的日志和性能。

AI开发平台MODELARTS
AI开发平台MODELARTS-SFT微调训练任务:Step2 启动训练脚本

Step2 启动训练脚本请根据表1修改超参值后，再启动训练脚本。单机启动以Qwen-14B为例，单机SFT微调启动命令如下。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。 MODEL_TYPE=14B RUN_TYPE=sft DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH= /home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights TRAIN_ITERS=300 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 其中 MODEL_TYPE 、RUN_TYPE、DATA_PATH、TOKENIZER_MODEL、MODEL_PATH为必填，TRAIN_ITERS、MBS、GBS、TP、PP、SEQ_LEN为非必填，有默认值。多机启动以Qwen-14B为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行，此处以双机为例。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=0 MODEL_TYPE=14B RUN_TYPE=sft DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights TRAIN_ITERS=300 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh ... ... # 第二台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=1 MODEL_TYPE=14B RUN_TYPE=sft DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights TRAIN_ITERS=300 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、 NODE_RANK、 NODE_RANK、MODEL_TYPE 、RUN_TYPE、DATASET_PATH、TOKENIZER_PATH、MODEL_PATH为必填；TRAIN_ITERS、MBS、GBS、TP、PP、WORK_DIR、SEQ_LEN为非必填，有默认值。训练完成后，请参考查看日志和性能章节，查看SFT微调的日志和性能。

AI开发平台MODELARTS
AI开发平台MODELARTS-SFT微调训练任务:Step1 修改训练超参配置

Step1 修改训练超参配置 SFT微调脚本qwen.sh，存放在xxx-Ascend/llm_train/AscendSpeed/scripts/qwen目录下。训练前，可以根据实际需要修改超参配置。微调任务配置，操作同预训练配置类似，不同点为RUN_TYPE类型不同，以及输入输出路径的配置的不同。SFT微调的计算量与预训练基本一致，故配置可以与预训练相同。表1 SFT微调超参配置参数示例值参数说明 DATASET_PATH /home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft 必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名，不加文件类型后缀。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/tokenizers/Qwen-14B 必填。加载tokenizer时，tokenizer存放地址。请根据实际规划修改。 MODEL_TYPE 14B 必填。模型加载类型，根据实际填写7B、14B或72B。 TRAIN_ITERS 300 非必填。训练迭代周期。根据实际需要修改。 MBS 2 非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。默认值为2。取值建议如下： Qwen-14B：2 Qwen-7B：2 Qwen-72B：1 GBS 64 非必填。表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长；对于PP（流水线并行）值大于1的场景，适当增大GBS值吞吐性能会有所提升。 TP 8 非必填。表示张量并行。默认值为8，取值建议： Qwen-14B：8 Qwen-7B：4 Qwen-72B：8 PP 1 非必填。表示流水线并行。默认值为1，取值建议： Qwen-14B：1 Qwen-7B：1 Qwen-72B：大于等于5，例如5机填写5，8机填8。 RUN_TYPE sft 必填。表示训练类型。sft表示SFT微调。 MASTER_ADDR localhost 多机必填。主节点IP地址，多台机器中指定一个节点IP为主节点IP。一般指定第一个节点IP为主节点IP。 NNODES 1 多机必填。节点总数，如为双机，则写2。单机默认是1。 NODE_RANK 0 多机必填。节点序号，当前节点ID，一般从0开始。单机默认是0。以Qwen-72B 5机训练为例，节点ID依次为（0 1 2 3 4）；一般ID为0的节点设置为主节点IP。 MODEL_PATH /home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights 必填。加载的权重文件路径。SFT微调权重转换章节中将HuggingFace格式转化为Megatron格式的权重文件。 WORK_DIR /home/ma-user/ws 非必填。容器的工作目录，训练的权重文件保存在此路径下。默认值为：/home/ma-user/ws。 SEQ_LEN 4096 非必填。默认值为4096。

AI开发平台MODELARTS
AI开发平台MODELARTS-SFT微调权重转换:HuggingFace权重转换操作

HuggingFace权重转换操作这里以Qwen-14B为例，Qwen-7B和Qwen-72B只需按照实际情况修改环境变量参数即可。下载Qwen-14B的预训练权重和词表文件，并上传到/home/ma-user/ws/tokenizers/Qwen-14B目录下。具体下载地址请参见表1。如果已下载，忽略此步骤。创建权重转换后的输出目录/home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights/。 cd /home/ma-user/ws/ #进入/home/ma-user/ws/目录 mkdir -p processed_for_ma_input/Qwen-14B/converted_weights 进入代码目录/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink，在代码目录中执行util.py脚本。 #加载ascendspeed及megatron模型： export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink #进入到ModelLink目录下： cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink # 权重格式转换 python tools/checkpoint/util.py --model-type GPT \ --loader qwen_hf \ --saver megatron \ --target-tensor-parallel-size 8 \ #与微调TP值保持一致 --target-pipeline-parallel-size 1 \ #与微调PP值保持一致 --load-dir /home/ma-user/ws/tokenizers/Qwen-14B \ --save-dir /home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights \ --tokenizer-model /home/ma-user/ws/tokenizers/Qwen-14B/qwen.tiktoken \ --add-qkv-bias 参数说明： --model-type：模型类型。 --loader：权重转换要加载检查点的模型名称。 --tensor-model-parallel-size：张量并行数，需要与训练脚本中的配置一样。 --pipeline-model-parallel-size：流水线并行数，需要与训练脚本中的配置一样。 --saver：检查模型保存名称。 --load-dir：加载转换模型权重路径。 --save-dir：权重转换完成之后保存路径。 --tokenizer-model：tokenizer 路径。 --add-qkv-bias：为qkv这样的键和值添加偏差。权重转换完成后，在/home/ma-user/ws/processed_for_ma_input/Qwen-14B/converted_weights目录下查看转换后的权重文件。图1 转换后的权重文件

AI开发平台MODELARTS
AI开发平台MODELARTS-SFT微调数据处理:数据预处理说明

数据预处理说明使用数据预处理脚本preprocess_data.py脚本重新生成.bin和.idx格式的SFT全参微调数据。preprocess_data.py存放在llm_train/AscendSpeed/ModelLink/tools目录中，脚本具体内容如下。 #进入ModelLink目录 cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink #加载ascendspeed及megatron模型 export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink #执行以下命令 python ./tools/preprocess_data.py \ --input /home/ma-user/ws/training_data/finetune/alpaca_gpt4_data.json \ --tokenizer-name-or-path $TOKENIZER_PATH \ --output-prefix $DATASET_PATH\ --tokenizer-type PretrainedFromHF \ --seq-length 4096 \ --workers 8 \ --handler-name GeneralInstructionHandler \ --make-vocab-size-divisible-by 128 \ --log-interval 1000 参数说明： - input：SFT微调数据的存放路径。 - output-prefix：处理后的数据集保存路径+数据集名称前缀（例如：alpaca_ft）。 - tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'， 'BertWordPieceCase'，'GPT2BPETokenizer'， 'PretrainedFromHF']，设置为PretrainedFromHF。 - tokenizer-name-or-path：tokenizer的存放路径。 - handler-name：生成数据集的用途，这里是生成的指令数据集，用于微调。 - seq-length：是一个用于计算序列长度的函数。它接收一个序列作为输入，并返回序列的长度，需和训练时参数保持一致。 - workers：数据处理线程数。 --make-vocab-size-divisible-by：填充词汇大小，使模型中padded-vocab-size的值可被该值整除。这是出于计算效率的原因而添加的。 - log-interval：输出处理日志刷新间隔。输出结果 alpaca_ft_packed_attention_mask_document.bin alpaca_ft_packed_attention_mask_document.idx alpaca_ft_packed_input_ids_document.bin alpaca_ft_packed_input_ids_document.idx alpaca_ft_packed_labels_document.bin alpaca_ft_packed_labels_document.idx

AI开发平台MODELARTS SFT微调训练
AI开发平台MODELARTS-SFT微调数据处理:数据处理具体操作

数据处理具体操作 SFT全参微调数据处理具体操作步骤如下。创建处理后的数据存放目录/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/ cd /home/ma-user/ws/ #进入容器工作目录 mkdir -p processed_for_ma_input/Qwen-14B/data/finetune 进入代码目录“/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink/”，在代码目录中执行preprocess_data.py脚本处理数据。此处提供一段实际的数据处理代码示例如下。 #加载ascendspeed及megatron模型 export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink #进入到ModelLink目录下 cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink/ #执行以下命令 python ./tools/preprocess_data.py \ --input /home/ma-user/ws/training_data/finetune/alpaca_gpt4_data.json \ --tokenizer-name-or-path /home/ma-user/ws/tokenizers/Qwen-14B \ --output-prefix /home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/alpaca_ft \ --workers 8 \ --log-interval 1000 \ --tokenizer-type PretrainedFromHF \ --handler-name GeneralInstructionHandler \ --make-vocab-size-divisible-by 128 \ --seq-length 4096 \ 数据处理完后，在/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/finetune/目录下生成转换后的数据文件。

AI开发平台MODELARTS SFT微调训练
AI开发平台MODELARTS-查看日志和性能:查看性能

查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：global batch size*seq_length/（总卡数*elapsed time per iteration）*1000，其参数在日志里可找到，默认seq_len值为4096，默认global batch size为64；其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数。 loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在最后一个节点上。图2 Loss收敛情况（示意图）

AI开发平台MODELARTS
AI开发平台MODELARTS-断点续训练:训练过程

训练过程断点续训脚本qwen.sh，存放在“xxx-Ascend/llm_train/AscendSpeed/scripts/qwen”目录下。执行命令如下，进入AscendSpeed代码目录。 cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ 修改断点续训练参数。断点续训前，需要在原有训练参数配置表1中新加“MODEL_PATH”参数，并修改“TRAIN_ITERS”参数和“RUN_TYPE”参数。表1 断点续训练修改参数参数示例值参数说明 MODEL_PATH /home/ma-user/ws/saved_dir_for_ma_output/Qwen-14B/pretrain 必填。加载上一步预训练后保存的权重文件。请根据实际规划修改。 TRAIN_ITERS 300 必填。表示训练周期，必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型，retrain表示断点续训练。在AscendSpeed代码目录下执行断点续训练脚本。单机启动 MODEL_TYPE=14B RUN_TYPE=retrain DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca_text_document TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/saved_dir_for_ma_output/Qwen-14B/pretrain TRAIN_ITERS=300 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 多机启动以Qwen-14B为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行，以双机为例。 #第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=0 MODEL_TYPE=14B RUN_TYPE=retrain DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca_text_document TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/saved_dir_for_ma_output/Qwen-14B/pretrain TRAIN_ITERS=300 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh ... # 第二台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=1 MODEL_TYPE=14B RUN_TYPE=retrain DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca_text_document TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B MODEL_PATH=/home/ma-user/ws/saved_dir_for_ma_output/Qwen-14B/pretrain TRAIN_ITERS=300 MBS=2 GBS=64 TP=8 PP=12 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、 NODE_RANK、 NODE_RANK、MODEL_TYPE 、RUN_TYPE、DATASET_PATH、TOKENIZER_PATH、MODEL_PATH为必填；TRAIN_ITERS、MBS、GBS、TP、PP、WORK_DIR、SEQ_LEN为非必填，有默认值。图1 保存的ckpt 训练完成后，参考查看日志和性能，查看断点续训练日志和性能。

AI开发平台MODELARTS
AI开发平台MODELARTS-预训练任务:预训练超参配置

预训练超参配置预训练脚本qwen.sh，存放在“xxx-Ascend/llm_train/AscendSpeed/scripts/qwen”目录下。训练前，需要根据实际需要配置超参。表1 预训练超参配置参数示例值参数说明 DATASET_PATH /home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca_text_document 必填。训练时指定的输入数据路径。一般为数据地址/处理后的数据前缀名，不加文件类型后缀。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/tokenizers/Qwen-14B 必填。加载tokenizer时，tokenizer存放地址。请根据实际规划修改。 MODEL_TYPE 14B 必填。表示模型加载类型，根据实际填写7B、14B或72B。 TRAIN_ITERS 200 非必填。表示训练迭代周期，根据实际需要修改。 MBS 2 非必填。表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。默认值为2。取值建议如下： Qwen-14B：2 Qwen-7B：2 Qwen-72B：1 GBS 64 非必填。表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。默认值为64。对于PP（流水线并行）值大于1的场景，增大GBS值吞吐性能会有提升。 TP 8 非必填。表示张量并行。默认值为8，取值建议： Qwen-14B：8 Qwen-7B：4 Qwen-72B：8 PP 1 非必填。表示流水线并行。默认值为1，取值建议： Qwen-14B：1 Qwen-7B：1 Qwen-72B：大于等于5，例如5机填写5，8机填8。 RUN_TYPE pretrain 必填。表示训练类型，根据实际训练任务类型选择。取值说明： pretrain：表示预训练 retrain：表示断点续训 sft：表示SFT微调训练 lora：表示LoRA微调训练 MASTER_ADDR localhost 多机必填。主节点IP地址，多台机器中需要指定一个节点IP为主节点IP。一般指定第一个节点IP为主节点IP。 NNODES 1 多机必填。节点总数，如为双机，则写2。单机默认是1。 NODE_RANK 0 多机必填。节点序号，当前节点ID，一般从0开始，单机默认是0。以Qwen-72B 5机训练为例，节点ID依次为（0 1 2 3 4）；一般ID为0的节点设置为主节点IP。 WORK_DIR /home/ma-user/ws 容器的工作目录。训练的权重文件保存在此路径下。非必填，默认值为：/home/ma-user/ws。 SEQ_LEN 4096 非必填。默认值为4096。

AI开发平台MODELARTS
AI开发平台MODELARTS-预训练任务:启动训练脚本

启动训练脚本请根据表1修改超参值后，再启动训练脚本。单机启动以Qwen-14B为例，单机训练启动样例命令如下。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下。 MODEL_TYPE=14B RUN_TYPE=pretrain DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca_text_document TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B TRAIN_ITERS=200 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 其中 MODEL_TYPE 、RUN_TYPE、DATASET_PATH、TOKENIZER_PATH为必填，TRAIN_ITERS、MBS、GBS、TP、PP、SEQ_LEN为非必填，有默认值。多机启动以Qwen-14B为例，多台机器执行训练启动命令如下。多机启动需要在每个节点上执行，以双机为例。在/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/代码目录下执行。 #第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=0 MODEL_TYPE=14B RUN_TYPE=pretrain DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca_text_document TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B TRAIN_ITERS=200 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh ... ... # 第二台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2 NODE_RANK=1 MODEL_TYPE=14B RUN_TYPE=pretrain DATASET_PATH=/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca_text_document TOKENIZER_PATH=/home/ma-user/ws/tokenizers/Qwen-14B TRAIN_ITERS=200 MBS=2 GBS=64 TP=8 PP=1 SEQ_LEN=4096 WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 以上命令多台机器执行时，只有${NODE_RANK}的节点ID值不同，其他参数都保持一致。其中MASTER_ADDR、 NODE_RANK、 NODE_RANK、MODEL_TYPE 、RUN_TYPE、DATASET_PATH、TOKENIZER_PATH为必填，TRAIN_ITERS、MBS、GBS、TP、PP、WORK_DIR、SEQ_LEN为非必填，有默认值。等待模型载入执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入更多查看训练日志和性能操作，请参考查看日志和性能章节。如果需要使用断点续训练能力，请参考断点续训练章节修改训练脚本。

AI开发平台MODELARTS
AI开发平台MODELARTS-预训练数据处理:Alpaca数据处理操作步骤

Alpaca数据处理操作步骤 Alpaca数据处理具体操作步骤如下：创建数据处理后的输出目录/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/。 cd /home/ma-user/ws/ #进入容器工作目录 mkdir -p processed_for_ma_input/Qwen-14B/data/pretrain 将获取到的Alpaca预训练数据集传到上一步创建的目录中。如还未下载数据集，请参考准备数据获取。进入“/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink/”目录，在代码目录中执行preprocess_data.py脚本处理数据。此处提供一段实际的数据处理代码示例如下。 #加载ascendspeed及megatron模型 export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink #进入到ModelLink目录下 cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink/ #执行以下命令 python ./tools/preprocess_data.py \ --input /home/ma-user/ws/training_data/pretrain/train-00000-of-00001-a09b74b3ef9c3b56.parquet \ --tokenizer-name-or-path /home/ma-user/ws/tokenizers/Qwen-14B \ --output-prefix /home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca \ --workers 8 \ --log-interval 1000 \ --tokenizer-type PretrainedFromHF \ --seq-length 4096 数据处理完后，在/home/ma-user/ws/processed_for_ma_input/Qwen-14B/data/pretrain/目录下生成alpaca_text_document.bin和alpaca_text_document.idx文件。图1 处理后的数据

AI开发平台MODELARTS
AI开发平台MODELARTS-预训练数据处理:Alpaca数据处理说明

Alpaca数据处理说明数据预处理脚本preprocess_data.py存放在代码包的“llm_train/AscendSpeed/ModelLink/tools/”目录中，脚本具体内容如下。 cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink #数据预处理 export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink python ./tools/preprocess_data.py \ --input {work_dir}/training_data/pretrain/train-00000-of-00001-a09b74b3ef9c3b56.parquet \ --tokenizer-name-or-path {work_dir}/tokenizers/Qwen-14B \ --output-prefix {work_dir}/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca \ --workers 8 \ --log-interval 1000 \ --tokenizer-type PretrainedFromHF \ --seq-length 4096 参数说明： ${work_dir}的路径指容器工作路径：如/home/ma-user/ws/ 。 - input：原始数据集的存放路径。 - output-prefix：处理后的数据集保存路径+数据集名称前缀（例如: alpaca），替换为实际模型的路径。 - tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 - tokenizer-name-or-path：tokenizer的存放路径，替换为实际模型的路径。 -workers：设置数据处理使用执行卡数量。 -log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。 -seq-length : 是一个用于设置序列长度的参数，表示模型处理的序列长度。在训练大规模模型时，可以通过设置这个参数来优化模型的训练速度和效果。数据预处理后输出的训练数据如下： alpaca_text_document.bin alpaca_text_document.idx 训练的时指定的数据路径为${path}/alpaca/qwen-14b/alpaca_text_document，不加文件类型后缀。

AI开发平台MODELARTS
AI开发平台MODELARTS-预训练数据处理:自定义数据

自定义数据如果是用户自己准备的数据集，可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例 #1.将准备好的json格式数据集存放于/home/ma-user/ws/training_data/pretrain目录下: 如data.json #2.运行转换脚本 cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink/ 加载ascendspeed及megatron模型 export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink #运行以下命令 python ./tools/preprocess_data.py \ --input {work_dir}/training_data/pretrain/data.json \ --tokenizer-name-or-path {work_dir}/tokenizers/Qwen-14B \ --output-prefix {work_dir}/processed_for_ma_input/Qwen-14B/data/pretrain/alpaca \ --workers 8 \ --log-interval 1000 \ --tokenizer-type PretrainedFromHF \ --seq-length 4096 #3.执行完成后在 datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:Step1 检查系统环境

Step1 检查系统环境 SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:Step3 启动容器镜像

Step3 启动容器镜像启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 container_work_dir="/home/ma-user/ws" # 容器内挂载的目录 work_dir="/home/ma-user/ws" # 宿主机挂载目录，存放了代码、数据、权重 container_name="ascendspeed" # 启动的容器名称 image_name="${container_name} " # 启动的镜像ID docker run -itd \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ --cpus 192 \ --memory 1000g \ --shm-size 200g \ --net=host \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ $image_name \ /bin/bash 参数说明： --name ${container_name} 容器名称，进入容器时会用到，此处可以自己定义一个容器名称，例如ascendspeed。 -v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 ${image_name} 为docker镜像的ID，在宿主机上可通过docker images查询得到。通过容器名称进入容器中。 docker exec -it ${container_name} bash 启动容器时默认用户为ma-user用户。如果需要切换到root用户可以执行以下命令： sudo su source /home/ma-user/.bashrc 如果继续使用ma-user，在使用其他属组如root用户上传的数据和文件时，可能会存在权限不足的问题，因此需要执行如下命令统一文件属主。 sudo chown -R ma-user:ma-group ${container_work_dir} # ${container_work_dir}:/home/ma-user/ws 容器内挂载的目录例如： sudo chown -R ma-user:ma-group /home/ma-user/ws 安装pip源。 #进入scriptsscripts目录 cd /home/ma-user/ws/xxxend/llm_train/AscendSpeed/scripts #执行安装命令 pip install -r requirements.txt

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:镜像地址

镜像地址本教程中用到的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础镜像地址镜像用途镜像地址基础镜像（训练和推理通用）西南-贵阳一：swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc1-py_3.9-hce_2.0.2312-aarch64-snt9b-20240516142953-ca51f42 本文档兼容cann_7.0.1.1和cann_8.0.rc1的镜像，推荐使用较新版本的cann_8.0.rc1镜像。表2 模型镜像版本名称版本 CANN cann_8.0.rc1 PyTorch pytorch_2.1.0 PyTorch_npu 2.1.0.post3-20240413

AI开发平台MODELARTS
AI开发平台MODELARTS-准备数据:上传数据到指定目录

上传数据到指定目录将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下：进入到/home/ma-user/ws/目录下。创建目录“training_data/pretrain”，并将预训练原始数据放置在此处。 mkdir -p training_data/pretrain 创建目录“training_data/finetune”，并将微调训练原始数据放置在此处 mkdir -p training_data/finetune 数据存放参考目录结构如下： ${workdir}（例如/home/ma-user/ws ） ├── training_data #原始数据目录 ├── pretrain #预训练加载的数据 ├── train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练原始数据文件 ├── finetune #微调训练加载的数据 ├── alpaca_gpt4_data.json #微调训练原始数据文件

AI开发平台MODELARTS
AI开发平台MODELARTS-准备数据:Alpaca数据

Alpaca数据本教程使用到的训练数据集是Alpaca数据集。Alpaca是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优，使语言模型更好地遵循指令。训练数据集下载：https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet，数据大小：24M左右。 SFT全参微调、LoRA微调训练数据集下载： https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM/blob/main/data/alpaca_gpt4_data.json，数据大小：42M左右。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备数据:自定义数据

自定义数据用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是id、url、title和text。可以指定–json-key 标志来选择用于训练的列。 { 'id': '1', 'url': 'https://simple.wikipedia.org/wiki/April', 'title': 'April', 'text': 'April is the fourth month...' }

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:获取代码和权重文件

获取代码和权重文件表1 准备代码代码包名称代码说明下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 AscendSpeed是用于模型并行计算的框架，其中包含了许多模型的输入处理方法。获取路径：Support-E网站。说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。权重和词表文件包含了本教程使用到的HuggingFace原始权重文件和Tokenizer。标记器(Tokenizer)是NLP管道的核心组件之一。它们有一个目的：将文本转换为模型可以处理的数据。模型只能处理数字，因此标记器(Tokenizer)需要将文本输入转换为数字数据。 Qwen-14B-Chat Qwen-7B-Chat Qwen-72B-Chat 这个路径下既有权重，也有Tokenizer，全部下载。具体内容参见权重和词表文件介绍。本文档前向兼容AscendCloud-3rdLLM-6.3.T041版本，获取路径：Support网站。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:权重和词表文件介绍

权重和词表文件介绍下载完毕后的HuggingFace原始权重文件包含以下内容，此处以Qwen-14B为例，仅供参考，以实际下载的最新文件为准。 qwen-14b ├── assets ├── cache_autogptq_cuda_256.cpp ├── cache_autogptq_cuda_kernel_256.cu ├── config.json ├── configuration_qwen.py ├── cpp_kernels.py ├── examples ├── generation_config.json ├── LICENSE ├── model-00001-of-00015.safetensors ├── model-00002-of-00015.safetensors ... ├── model-00014-of-00015.safetensors ├── model-00015-of-00015.safetensors ├── modeling_qwen.py ├── model.safetensors.index.json ├── NOTICE ├── qwen_generation_utils.py ├── qwen.tiktoken ├── README.md ├── tokenization_qwen.py ├── tokenizer_config.json

AI开发平台MODELARTS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线