AI开发平台ModelArts-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

时间:2025-02-12 15:14:13

用户自定义执行数据处理脚本修改参数说明

同样以 llama2 为例,用户可直接编辑 scripts/llama2/1_preprocess_data.sh 脚本,自定义环境变量的值,并运行该脚本。其中环境变量详细介绍如下:

表1 数据预处理中的环境变量

环境变量

示例

参数说明

RUN_TYPE

pretrain、sft、lora

数据预处理区分:

预训练场景下数据预处理,默认参数:pretrain

微调场景下数据预处理,默认:sft / lora

ORIGINAL_TRAIN_DATA_PATH

/home/ma-user/ws/training_data/${用户自定义的数据集路径和名称}

原始数据集的存放路径。

TOKENIZER_PATH

/home/ma-user/ws/tokenizers/llama2-13b

tokenizer的存放路径,与HF权重存放在一个文件夹下。请根据实际规划修改。

PRO CES SED_DATA_PREFIX

/home/ma-user/ws/llm_train/processed_for_input/llama2-13b/data

处理后的数据集保存路径+数据集前缀

TOKENIZER_TYPE

PretrainedFromHF

可选项有:['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为 PretrainedFromHF 。

SEQ_LEN

4096

要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据,并打印log。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_91063.html