华为云首页用户手册

AI开发平台MODELARTS-训练的数据集预处理说明:微调数据集预处理参数说明

AI开发平台MODELARTS-训练的数据集预处理说明:微调数据集预处理参数说明

时间：2024-12-09 20:36:13

AI开发平台MODELARTS

微调数据集预处理参数说明

微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下：

--input：原始数据集的存放路径。
--output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data）
--tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。
--tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。
--handler-name：生成数据集的用途，这里是生成的指令数据集，用于微调。
- GeneralPretrainHandler：默认。用于预训练时的数据预处理过程中，将数据集根据key值进行简单的过滤。
- GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。
--seq-length：要处理的最大seq length。
--workers：设置数据处理使用执行卡数量 / 启动的工作进程数。
--log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

输出数据预处理结果路径：

训练完成后，以llama2-13b为例，输出数据路径为：/home/ma-user/work/llm_train/processed_for_input/llama2-13b/data/finetune/

上一篇：AI开发平台MODELARTS-训练的数据集预处理说明:预训练数据集预处理参数说明

下一篇：AI开发平台MODELARTS-训练的数据集预处理说明:预训练数据集预处理参数说明

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-训练的数据集预处理说明:微调数据集预处理参数说明

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题