华为云首页用户手册

AI开发平台ModelArts-使用MaaS调优模型:支持的数据集格式

时间：2025-01-26 10:50:48

AI开发平台ModelArts

支持的数据集格式

创建模型调优任务时，支持选择MOSS、Alpaca和ShareGPT这三种数据集格式。

MOSS：用于存储和交换机器学习模型数据的数据集格式，文件类型为jsonl。
Alpaca：用于训练语言模型的数据集格式，文件类型为jsonl。

ShareGPT：用于分享GPT模型对话结果的数据集格式，文件类型为jsonl。

请按数据集格式要求准备数据，否则会导致调优作业失败。
对于csv、xlsx文件，平台会将其转为Alpaca格式或MOSS格式，具体请参见表2。

表2 模型与数据集格式说明
模型	调优类型	数据集格式（jsonl）	数据集格式（xlsx和csv）
Qwen2.5-72B及其余模型系列（权重格式为Megatron的模型，具体请参见表7）	全参微调、LoRA微调	MOSS、Alpaca、ShareGPT	MOSS
Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K	全参微调、LoRA微调	Alpaca、ShareGPT	Alpaca
Qwen2.5-14B	增量预训练	Alpaca	不支持

MOSS数据集格式：jsonl格式

MOSS数据集格式仅支持微调。

jsonl的一行数据就是数据集中的一条样本，建议总的数据样本不少于2000条。数据集示例如下，单轮对话也可以复用此格式。您可以单击下载，获取示例数据集“simple_moss.jsonl”，该数据集可以用于文本生成类型的模型调优。
```
{"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
```
- "conversation_id"：样本编号。
- "chat"：多轮对话的内容。
- "turn_n"：表示是第n次对话，每次对话都有输入（对应Human角色）和输出（对应MOSS角色）。其中Human和MOSS仅用于角色区分，模型训练的内容只有text指代的文本。

Alpaca数据集格式

微调：jsonl格式

{  "instruction": "计算这些物品的数量之和。 ",  "input": "输入：汽车 - 3，衣服 - 100，书 - 20。",  "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"}

增量预训练：

[  {"text": "document"},  {"text": "document"}]

ShareGPT数据集格式

ShareGPT数据集格式仅支持微调。
ShareGPT格式支持更多的角色种类，例如human、gpt、observation、function等。它们构成一个对象列表呈现在conversations列中。
注意：其中human和observation必须出现在奇数位置，gpt和function必须出现在偶数位置。

示例如下：

[  {    "conversations": [      {        "from": "human",        "value": "human instruction"      },      {        "from": "function_call",        "value": "tool arguments"      },      {        "from": "observation",        "value": "tool result"      },      {        "from": "gpt",        "value": "model response"      }    ],    "system": "system prompt (optional)",    "tools": "tool description (optional)"  }]

csv、xlsx

csv和xlsx格式数据集仅支持微调。

表格里的一行数据就是一条样本。表格中仅有3个字段：conversation_id、human和assistant。