AI开发平台MODELARTS-训练的数据集预处理说明:预训练数据集预处理参数说明

时间:2024-11-12 16:42:22

预训练数据集预处理参数说明

预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下:

  • --input:原始数据集的存放路径。
  • --output-prefix:处理后的数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。
  • --tokenizer-type:tokenizer的类型,可选项有['BertWordPieceLowerCase','BertWordPieceCase','GPT2BPETokenizer','PretrainedFromHF'],一般为PretrainedFromHF。
  • --tokenizer-name-or-path:tokenizer的存放路径,与HF权重存放在一个文件夹下。
  • --seq-length:要处理的最大seq length。
  • --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。
  • --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。

输出数据预处理结果路径:

训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/work/llm_train/processed_for_input/llama2-13b/data/pretrain/

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1846.html