AI开发平台ModelArts-使用MaaS调优模型:支持的数据集格式

时间:2025-01-26 10:50:48

支持的数据集格式

创建模型调优任务时,支持选择MOSS、Alpaca和ShareGPT这三种数据集格式。

  • MOSS:用于存储和交换机器学习模型数据的数据集格式,文件类型为jsonl。
  • Alpaca:用于训练语言模型的数据集格式,文件类型为jsonl。
  • ShareGPT:用于分享GPT模型对话结果的数据集格式,文件类型为jsonl。
    • 请按数据集格式要求准备数据,否则会导致调优作业失败。
    • 对于csv、xlsx文件,平台会将其转为Alpaca格式或MOSS格式,具体请参见表2
    表2 模型与数据集格式说明

    模型

    调优类型

    数据集格式(jsonl)

    数据集格式(xlsx和csv)

    Qwen2.5-72B及其余模型系列(权重格式为Megatron的模型,具体请参见表7

    全参微调、LoRA微调

    MOSS、Alpaca、ShareGPT

    MOSS

    Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K

    全参微调、LoRA微调

    Alpaca、ShareGPT

    Alpaca

    Qwen2.5-14B

    增量预训练

    Alpaca

    不支持

  1. MOSS数据集格式:jsonl格式

    MOSS数据集格式仅支持微调。

    jsonl的一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条。数据集示例如下,单轮对话也可以复用此格式。您可以单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。

    {"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
    • "conversation_id":样本编号。
    • "chat":多轮对话的内容。
    • "turn_n":表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。
  2. Alpaca数据集格式
    1. 微调:jsonl格式
      {  "instruction": "计算这些物品的数量之和。 ",  "input": "输入:汽车 - 3,衣服 - 100,书 - 20。",  "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"}
    2. 增量预训练:
      [  {"text": "document"},  {"text": "document"}]
  3. ShareGPT数据集格式
    • ShareGPT数据集格式仅支持微调。
    • ShareGPT格式支持更多的角色种类,例如human、gpt、observation、function等。它们构成一个对象列表呈现在conversations列中。

      注意:其中human和observation必须出现在奇数位置,gpt和function必须出现在偶数位置。

    示例如下:

    [  {    "conversations": [      {        "from": "human",        "value": "human instruction"      },      {        "from": "function_call",        "value": "tool arguments"      },      {        "from": "observation",        "value": "tool result"      },      {        "from": "gpt",        "value": "model response"      }    ],    "system": "system prompt (optional)",    "tools": "tool description (optional)"  }]
  4. csv、xlsx

    csv和xlsx格式数据集仅支持微调。

    表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。

    • conversation_id:对话ID,可以重复,但必须是正整数。如果有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。
    • human:对话输入,内容不能为空。
    • assistant:对话输出,内容不能为空。
    表3 表格示例

    conversation_id

    human

    assistant

    1

    text

    text

support.huaweicloud.com/usermanual-maas-modelarts/maas-modelarts-0008.html