盘古大模型 PanguLargeModels-使用数据工程构建NLP大模型数据集:训练NLP大模型所需数据量

时间:2025-02-12 15:04:35

训练NLP大模型所需数据量

使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2

表2 构建NLP大模型所需数据量

模型规格

训练类型

推荐数据量

最小数据量(数据条数)

单场景推荐训练数据量

单条数据Token长度限制

N1

微调

-

1000条/每场景

≥ 1万条/每场景

32K

N2

微调

-

1000条/每场景

≥ 1万条/每场景

32K

N4

微调

-

1000条/每场景

≥ 1万条/每场景

4K版本:4096

32K版本:32768

support.huaweicloud.com/usermanual-pangulm/pangulm_04_0166.html