AI开发平台MODELARTS-eagle投机小模型训练:步骤三:sharegpt格式数据生成为训练data数据集
步骤三:sharegpt格式数据生成为训练data数据集
若使用开源数据集,推荐使用原论文代码仓数据集,下载地址:https://huggingface.co/datasets/Aeala/ShareGPT_Vicuna_unfiltered/blob/main/ShareGPT_V4.3_unfiltered_cleaned_split.json
否则使用第二步生成的开源数据集。
python allocation.py \ --outdir outdir0/sharegpt_0_99_mufp16 \ --end_num 100 \ --used_npus "0,1,2,3,4,5,6,7" \ --model_type llama \ --model_name ./llama-7B \ --data_path data_for_sharegpt.json \ --seed 42 \ --max_length 2048 \ --dtype bfloat16
其中
outdir:生成的训练data 地址
end_num:生成的data总条数
used_npus:使用哪些NPU
model_type:使用模型类型 目前支持 qwen2 llama1 llama2 及 llama3,其中llama1、2及chat都填写llama
model_name:模型地址
data_path:预训练数据集地址 即一中生成的文件地址
seed:生成训练data所使用的seed(此处42为开源训练设定参数)
max_length:模型的max_length
dtype:为模型dtype 默认为bfloat16
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts数据管理_数据管理功能简介_数据集管理
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- ModelArts推理部署_模型_AI应用来源-华为云