AI开发平台MODELARTS-eagle投机小模型训练:步骤三：sharegpt格式数据生成为训练data数据集

时间：2025-01-03 09:38:58

AI开发平台MODELARTS

步骤三：sharegpt格式数据生成为训练data数据集

若使用开源数据集，推荐使用原论文代码仓数据集，下载地址：https://huggingface.co/datasets/Aeala/ShareGPT_Vicuna_unfiltered/blob/main/ShareGPT_V4.3_unfiltered_cleaned_split.json

否则使用第二步生成的开源数据集。

python allocation.py \
--outdir outdir0/sharegpt_0_99_mufp16 \
--end_num 100 \
--used_npus "0,1,2,3,4,5,6,7" \
--model_type llama \
--model_name ./llama-7B  \
--data_path data_for_sharegpt.json \
--seed 42 \
--max_length 2048 \
--dtype bfloat16

其中

outdir：生成的训练data 地址

end_num：生成的data总条数

used_npus：使用哪些NPU

model_type：使用模型类型目前支持 qwen2 llama1 llama2 及 llama3，其中llama1、2及chat都填写llama

model_name：模型地址

data_path：预训练数据集地址即一中生成的文件地址

seed：生成训练data所使用的seed（此处42为开源训练设定参数）

max_length：模型的max_length

dtype：为模型dtype 默认为bfloat16

上一篇：AI开发平台MODELARTS-eagle投机小模型训练:步骤二：非sharegpt格式数据集转换（可选）

下一篇：AI开发平台MODELARTS-eagle投机小模型训练:步骤二：非sharegpt格式数据集转换（可选）

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-eagle投机小模型训练:步骤三：sharegpt格式数据生成为训练data数据集

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

AI开发平台MODELARTS-eagle投机小模型训练:步骤三：sharegpt格式数据生成为训练data数据集

AI开发平台MODELARTS-eagle投机小模型训练:步骤三：sharegpt格式数据生成为训练data数据集

步骤三：sharegpt格式数据生成为训练data数据集

7*24

备案

专业服务

退订

建议反馈

售前咨询热线