AI开发平台MODELARTS-使用MaaS调优模型:支持的数据集格式

时间:2024-12-16 10:58:35

支持的数据集格式

  • jsonl格式
    一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条,如下所示是一行数据集的示例,单轮对话也可以复用此格式。
    {"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
    • “conversation_id”是样本编号。
    • “chat”后面是多轮对话的内容
    • “turn_n”表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。

    单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。

  • xlsx和csv格式

    表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。

    • conversation_id:对话ID,可以重复,但必须是正整数。若有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。
    • human:对话输入,内容不能为空。
    • assistant:对话输出,内容不能为空。

请按数据集格式要求准备数据,否则会导致调优任务失败。

support.huaweicloud.com/usermanual-maas-modelarts/maas-modelarts-0008.html