盘古大模型 PanguLargeModels-使用数据工程构建预测大模型数据集:训练预测大模型所需数据量

时间:2025-02-12 15:04:35

训练预测大模型所需数据量

训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下:

  • :每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。
  • :每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。
  • 顺序:表格中的行通常按照特定顺序排列。
  • 行数:数据表的行数应大于5000行。
  • 维度:数据的维度(列数)应大于10维。
  • 数据完整性:必须确保数据中没有缺失值。
support.huaweicloud.com/usermanual-pangulm/pangulm_04_0254.html