盘古大模型 PANGULARGEMODELS-文本类数据集格式要求

时间：2024-12-03 10:24:59

文本类数据集格式要求

ModelArts Studio大模型开发平台支持创建文本类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。

表1 文本类数据集格式要求
文件内容	文件格式	文件要求
文档	txt、mobi、epub、docx、pdf	数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。
网页	html	数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。
预训练文本	jsonl	jsonl格式：text表示预训练所使用的文本数据，具体格式示例如下： {"text":"盘古大模型，是华为推出盘古系列AI大模型，包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 数据集最大100万个文件，单文件最大2GB，整个数据集最大1.5TB。
单轮问答	jsonl、csv	jsonl格式：数据由问答对构成，context、target分别表示问题、答案，具体格式示例如下： {"context": "你好，请介绍自己", "target": "我是盘古大模型"} csv格式：csv文件的第一列对应context，第二列对应target，具体格式示例如下： "你好，请介绍自己","我是盘古大模型" 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。
多轮问答	jsonl	jsonl格式：数组格式，至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}]，其中context、target分别表示问题、答案，具体格式示例如下： [{"context":"你好","target":"你好，请问有什么可以帮助你"},{"context":"请介绍一下盘古大模型","target":"盘古大模型，是华为推出盘古系列AI大模型，包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}] 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。
问答排序	jsonl、csv	jsonl格式：context表示问题，targets的回答1、回答2、回答3表示答案的优劣顺序，最好的答案排在最前面。targets内容的数量至少为2个，且最多为6个，具体格式示例如下： { "context":"context内容","targets":["回答1","回答2","回答3"]} csv格式：csv文件的第一列对应context，其余列为答案，具体格式示例如下： "问题","回答1","回答2","回答3" 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。
单轮问答（人设）	jsonl、csv	jsonl格式：system表示人设，context、target分别表示问题、答案，具体格式示例如下： {"system":"机智幽默","context":"你好，请介绍自己","target":"哈哈，你好呀，我是你的聪明助手。"} csv格式：csv文件的第一列对应system，第二三列分别对应context、target，具体格式示例如下： {"机智幽默","你好，请介绍自己","哈哈，你好呀，我是你的聪明助手。"} 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。
多轮问答（人设）	jsonl	jsonl格式：数组格式，至少由一组问答对构成。system表示人设，context、target分别表示问题、答案，具体格式示例如下： [{"system":"书籍推荐专家"},{"context":"你好","target":"嗨！你好，需要点什么帮助吗？"},{"context":"能给我推荐点书吗？","target":"当然可以，基于你的兴趣，我推荐你阅读《自动驾驶的未来》。"}] 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。