盘古大模型 PANGULARGEMODELS-模型训练所需数据量与数据格式要求:数据格式要求
数据格式要求
盘古大模型服务支持如下数据,格式要求请参见表4。
数据类型 |
支持格式 |
数据样例 |
是否支持拆分(划分训练集/验证集) |
---|---|---|---|
自监督训练数据 |
TXT、JSONL、PDF、WORD、HTML |
编码格式为UTF-8。 #TXT格式,一行对应1条JSON #PDF、WORD、HTML只需上传对应的文档,文档内容为文本 #JSONL {"text":"《活着》,是中国著名作家余华所写的一部长篇小说。《活着》讲述了一个普通农民徐福贵的人生历程。他的人生充满了苦难和挫折,但他在面对这些困难时,始终保持着坚强和乐观的态度。"} |
否 |
有监督微调数据 |
单轮: CS V、JSONL 多轮:JSONL |
编码格式为UTF-8。 #单轮问答示例 #CSV 第一列对应context 第二列对应target #content、target分别表示问题、答案 #JSONL {"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"} 详细有监督数据格式性参见表5。 |
是 |
评测数据 |
CSV、JSONL |
同有监督单轮不带system prompt数据。 |
否 |
数据类型 |
格式说明 |
---|---|
有监督单轮,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,形式为{"context":"context内容","target":"target内容"} content、target分别表示问题、答案 #示例 {"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"} |
有监督单轮,CSV格式 |
编码格式为UTF-8。 每一行代表一个问答对,第一列对应context 第二列对应target,确保每个问题和答案的数据都以逗号分隔,每行的数据完整且格式正确 |
有监督单轮,带人设,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,system不能为空,形式为{"system":"system内容","context":"context内容","target":"target内容"} system、content、target分别表示人设、问题、答案 #示例 {"system":"你是一个知识问答助手","context":"诗仙指的是哪位诗人?","target": "唐代诗人李白为诗仙。"} |
有监督多轮,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,为数组格式,至少一组问答对,形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}] content、target分别表示问题、答案 #示例 [{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}] |
有监督多轮,带人设,JSONL格式 |
编码格式为UTF-8。 每一行表示一段文本,为数组格式,至少一组问答对,system不能为空,形式为[{"system":"system内容"},{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}] system、content、target分别表示人设、问题、答案 #示例 [{"system":"你是一个知识问答助手"},{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}] |