AI开发平台MODELARTS-eagle投机小模型训练:步骤三:sharegpt格式数据生成为训练data数据集

时间:2025-01-03 09:38:58

步骤三:sharegpt格式数据生成为训练data数据集

若使用开源数据集,推荐使用原论文代码仓数据集,下载地址:https://huggingface.co/datasets/Aeala/ShareGPT_Vicuna_unfiltered/blob/main/ShareGPT_V4.3_unfiltered_cleaned_split.json

否则使用第二步生成的开源数据集。

python allocation.py \
--outdir outdir0/sharegpt_0_99_mufp16 \
--end_num 100 \
--used_npus "0,1,2,3,4,5,6,7" \
--model_type llama \
--model_name ./llama-7B  \
--data_path data_for_sharegpt.json \
--seed 42 \
--max_length 2048 \
--dtype bfloat16

其中

outdir:生成的训练data 地址

end_num:生成的data总条数

used_npus:使用哪些NPU

model_type:使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama

model_name:模型地址

data_path:预训练数据集地址 即一中生成的文件地址

seed:生成训练data所使用的seed(此处42为开源训练设定参数)

max_length:模型的max_length

dtype:为模型dtype 默认为bfloat16

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_91015.html