华为云首页用户手册

AI开发平台MODELARTS-添加数据集:解释说明

AI开发平台MODELARTS-添加数据集:解释说明

时间：2024-12-20 10:08:04

AI开发平台MODELARTS MaaS

解释说明

选择存放训练数据集的OBS路径，必须选择到文件。

支持的数据集格式：

jsonl格式
一行数据就是数据集中的一条样本，建议总的数据样本不少于2000条，如下所示是一行数据集的示例，单轮对话也可以复用此格式。
```
{"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
```
- “conversation_id”是样本编号。
- “chat”后面是多轮对话的内容
- “turn_n”表示是第n次对话，每次对话都有输入（对应Human角色）和输出（对应MOSS角色）。其中Human和MOSS仅用于角色区分，模型训练的内容只有text指代的文本。
单击下载，获取示例数据集“simple_moss.jsonl”，该数据集可以用于文本生成类型的模型调优。
Qwen2.5系列的模型调优，如果使用jsonl数据集，仅支持Alpaca格式的数据集。格式如下：
```
{
  "instruction": "计算这些物品的数量之和。 ",
  "input": "输入：汽车 - 3，衣服 - 100，书 - 20。",
  "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"
}
```
如果是用于增量预训练的数据集，则格式如下：
```
[
  {"text": "document"},
  {"text": "document"}
]
```
xlsx和csv格式
表格里的一行数据就是一条样本。表格中仅有3个字段：conversation_id、human和assistant。
- conversation_id：对话ID，可以重复，但必须是正整数。若有多组Human-assiant对话使用同一个ID，则会按照文件中的顺序，将这几组对话编排成一个多轮对话。
- human：对话输入，内容不能为空。
- assistant：对话输出，内容不能为空。
当前xlsx和csv格式数据集只支持微调，暂不支持增量预训练。

上一篇：AI开发平台MODELARTS-计费说明:计费项

下一篇：AI开发平台MODELARTS-输出数据目录位置:解释说明

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

AI开发平台MODELARTS-添加数据集:解释说明

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题