盘古大模型 PanguLargeModels-使用数据工程构建NLP大模型数据集:NLP大模型支持接入的数据集类型

时间:2025-02-12 15:04:35

NLP大模型支持接入的数据集类型

盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求

表1 训练NLP大模型数据集类型要求

基模型

训练场景

数据集类型

数据集内容

文件格式

NLP

预训练

文本

预训练文本

jsonl

微调

文本

单轮问答

jsonl、csv

文本

多轮问答

jsonl

文本

单轮问答(人设)

jsonl、csv

文本

多轮问答(人设)

jsonl

support.huaweicloud.com/usermanual-pangulm/pangulm_04_0166.html