AI开发平台MODELARTS-添加数据集:解释说明
解释说明
选择存放训练数据集的OBS路径,必须选择到文件。
支持的数据集格式:
- jsonl格式
一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条,如下所示是一行数据集的示例,单轮对话也可以复用此格式。
{"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
- “conversation_id”是样本编号。
- “chat”后面是多轮对话的内容
- “turn_n”表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。
单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。
Qwen2.5系列的模型调优,如果使用jsonl数据集,仅支持Alpaca格式的数据集。格式如下:
{ "instruction": "计算这些物品的数量之和。 ", "input": "输入:汽车 - 3,衣服 - 100,书 - 20。", "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。" }
如果是用于增量预训练的数据集,则格式如下:[ {"text": "document"}, {"text": "document"} ]
- xlsx和csv格式
表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。
- conversation_id:对话ID,可以重复,但必须是正整数。若有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。
- human:对话输入,内容不能为空。
- assistant:对话输出,内容不能为空。
当前xlsx和csv格式数据集只支持微调,暂不支持增量预训练。