AI开发平台ModelArts-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

时间：2025-02-12 15:14:13

AI开发平台ModelArts

同样以 llama2 为例，用户可直接编辑 scripts/llama2/1_preprocess_data.sh 脚本，自定义环境变量的值，并运行该脚本。其中环境变量详细介绍如下：

表1 数据预处理中的环境变量
环境变量	示例	参数说明
RUN_TYPE	pretrain、sft、lora	数据预处理区分：预训练场景下数据预处理，默认参数：pretrain 微调场景下数据预处理，默认：sft / lora
ORIGINAL_TRAIN_DATA_PATH	/home/ma-user/ws/training_data/${用户自定义的数据集路径和名称}	原始数据集的存放路径。
TOKENIZER_PATH	/home/ma-user/ws/tokenizers/llama2-13b	tokenizer的存放路径，与HF权重存放在一个文件夹下。请根据实际规划修改。
PRO CES SED_DATA_PREFIX	/home/ma-user/ws/llm_train/processed_for_input/llama2-13b/data	处理后的数据集保存路径+数据集前缀
TOKENIZER_TYPE	PretrainedFromHF	可选项有：['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为 PretrainedFromHF 。
SEQ_LEN	4096	要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据，并打印log。