AI开发平台MODELARTS-添加数据集:解释说明

时间:2024-12-20 10:08:04

解释说明

选择存放训练数据集的OBS路径,必须选择到文件。

支持的数据集格式:

  • jsonl格式
    一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条,如下所示是一行数据集的示例,单轮对话也可以复用此格式。
    {"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
    • “conversation_id”是样本编号。
    • “chat”后面是多轮对话的内容
    • “turn_n”表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。

    单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。

    Qwen2.5系列的模型调优,如果使用jsonl数据集,仅支持Alpaca格式的数据集。格式如下:

    {
      "instruction": "计算这些物品的数量之和。 ",
      "input": "输入:汽车 - 3,衣服 - 100,书 - 20。",
      "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"
    }
    如果是用于增量预训练的数据集,则格式如下:
    [
      {"text": "document"},
      {"text": "document"}
    ]
  • xlsx和csv格式

    表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。

    • conversation_id:对话ID,可以重复,但必须是正整数。若有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。
    • human:对话输入,内容不能为空。
    • assistant:对话输出,内容不能为空。

    当前xlsx和csv格式数据集只支持微调,暂不支持增量预训练。

support.huaweicloud.com/drawer-modelarts/maas-modelarts-0032.html