盘古大模型 PANGULARGEMODELS-模型训练所需数据量与数据格式要求:数据格式要求

时间:2024-10-15 17:57:21

数据格式要求

盘古大模型服务支持如下数据,格式要求请参见表4

表4 盘古数据文件格式要求

数据类型

支持格式

数据样例

是否支持拆分(划分训练集/验证集)

自监督训练数据

TXT、JSONL、PDF、WORD、HTML

编码格式为UTF-8。

#TXT格式,一行对应1条JSON
#PDF、WORD、HTML只需上传对应的文档,文档内容为文本
#JSONL
{"text":"《活着》,是中国著名作家余华所写的一部长篇小说。《活着》讲述了一个普通农民徐福贵的人生历程。他的人生充满了苦难和挫折,但他在面对这些困难时,始终保持着坚强和乐观的态度。"}

有监督微调数据

单轮: CS V、JSONL

多轮:JSONL

编码格式为UTF-8。

#单轮问答示例
#CSV 第一列对应context 第二列对应target
#content、target分别表示问题、答案
#JSONL
{"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"}

详细有监督数据格式性参见表5

评测数据

CSV、JSONL

同有监督单轮不带system prompt数据。

表5 有监督数据格式

数据类型

格式说明

有监督单轮,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,形式为{"context":"context内容","target":"target内容"}
content、target分别表示问题、答案
#示例
{"context":"非深户在职人员长期在异地居住的是否可以办理异地就医备案手续","target":"可以。本市用人单位长期派驻异地(国内市外)工作的在职参保人员,可以按照常驻异地工作人员申请办理备案。"}

有监督单轮,CSV格式

编码格式为UTF-8。

每一行代表一个问答对,第一列对应context 第二列对应target,确保每个问题和答案的数据都以逗号分隔,每行的数据完整且格式正确

有监督单轮,带人设,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,system不能为空,形式为{"system":"system内容","context":"context内容","target":"target内容"}
system、content、target分别表示人设、问题、答案
#示例
{"system":"你是一个知识问答助手","context":"诗仙指的是哪位诗人?","target": "唐代诗人李白为诗仙。"}

有监督多轮,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,为数组格式,至少一组问答对,形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}]
content、target分别表示问题、答案
#示例
[{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}]

有监督多轮,带人设,JSONL格式

编码格式为UTF-8。

每一行表示一段文本,为数组格式,至少一组问答对,system不能为空,形式为[{"system":"system内容"},{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}]
system、content、target分别表示人设、问题、答案
#示例
[{"system":"你是一个知识问答助手"},{"context":"诗仙指的是哪位诗人","target":"唐代诗人李白为诗仙"},{"context":"他都有哪些代表作?","target":"李白的代表作有《望庐山瀑布》、《行路难》、《蜀道难》等"}]
support.huaweicloud.com/ugobs-obs-pangulm/pangulm_03_0036.html