AI开发平台ModelArts-使用MaaS调优模型:支持的数据集格式
支持的数据集格式
创建模型调优任务时,支持选择MOSS、Alpaca和ShareGPT这三种数据集格式。
- MOSS:用于存储和交换机器学习模型数据的数据集格式,文件类型为jsonl。
- Alpaca:用于训练语言模型的数据集格式,文件类型为jsonl。
- ShareGPT:用于分享GPT模型对话结果的数据集格式,文件类型为jsonl。
- 请按数据集格式要求准备数据,否则会导致调优作业失败。
- 对于csv、xlsx文件,平台会将其转为Alpaca格式或MOSS格式,具体请参见表2。
- MOSS数据集格式:jsonl格式
MOSS数据集格式仅支持微调。
jsonl的一行数据就是数据集中的一条样本,建议总的数据样本不少于2000条。数据集示例如下,单轮对话也可以复用此格式。您可以单击下载,获取示例数据集“simple_moss.jsonl”,该数据集可以用于文本生成类型的模型调优。
{"conversation_id": 1, "chat": {"turn_1": {"Human":"text","MOSS":"text"},"turn_2": {"Human":"text","MOSS":"text"}}}
- "conversation_id":样本编号。
- "chat":多轮对话的内容。
- "turn_n":表示是第n次对话,每次对话都有输入(对应Human角色)和输出(对应MOSS角色)。其中Human和MOSS仅用于角色区分,模型训练的内容只有text指代的文本。
- Alpaca数据集格式
- 微调:jsonl格式
{ "instruction": "计算这些物品的数量之和。 ", "input": "输入:汽车 - 3,衣服 - 100,书 - 20。", "output": "汽车、衣服和书的数量之和为 3 + 100 + 20 = 123。"}
- 增量预训练:
[ {"text": "document"}, {"text": "document"}]
- 微调:jsonl格式
- ShareGPT数据集格式
示例如下:
[ { "conversations": [ { "from": "human", "value": "human instruction" }, { "from": "function_call", "value": "tool arguments" }, { "from": "observation", "value": "tool result" }, { "from": "gpt", "value": "model response" } ], "system": "system prompt (optional)", "tools": "tool description (optional)" }]
- csv、xlsx
csv和xlsx格式数据集仅支持微调。
表格里的一行数据就是一条样本。表格中仅有3个字段:conversation_id、human和assistant。
- conversation_id:对话ID,可以重复,但必须是正整数。如果有多组Human-assiant对话使用同一个ID,则会按照文件中的顺序,将这几组对话编排成一个多轮对话。
- human:对话输入,内容不能为空。
- assistant:对话输出,内容不能为空。
表3 表格示例 conversation_id
human
assistant
1
text
text
- GaussDB数据库参数调优_GaussDB版本_高斯数据库参数调优
- ModelArts模型训练_超参搜索简介_超参搜索算法
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts自动学习是什么_自动学习简介_零代码完成AI开发
- ModelArts模型训练_模型训练简介_如何训练模型
- 文档数据库服务DDS性能调优_MongoDB性能调优_华为云
- GaussDB性能怎么调_GaussDB性能调优_高斯数据库性能怎么调-华为云
- TMS开发_金蝶TMS系统_TMS技术系统_信息化管理_视频
- 华为云CodeArts API_API设计支持公共模型
- ModelArts是什么_AI开发平台_ModelArts功能