盘古大模型 PANGULARGEMODELS-创建一个训练数据集:数据配比功能介绍

时间:2024-09-05 14:59:04

数据配比功能介绍

用户针对业务场景,可以通过数据配比功能,自由组合多个数据集,并控制数据占比。

  • 数据集来源:用户自己创建并且已经发布的数据集。
  • 数据集组合:选择多个数据集,并且可以指定数据之间的配比和条数,最大支持20个。
    • 配比的作用:支持用户灵活调整数据集的比例。

      比例:用户自己创建的数据集,默认1:1:1的方式。例如,3个数据集D1(100GB)、D2(50GB)、D3(200GB),配比按照最大比例去配比,即为D1(50GB)、D2(50GB)、D3(50GB),则3*50=150GB,此时用户可以控制最大的数据量,限制数据量大小,如100GB。

      表1 配置比例

      配置比例

      数据集大小上限500GB

      第一阶段

      第二阶段

      -

      数据集

      原始大小

      默认值

      手动修改

      实际大小

      D1

      100GB

      1

      1

      100GB

      D2

      50GB

      1

      2

      50GB

      D3

      200GB

      1

      1

      200GB

      训练数据集PD1

      /

      15

      15

      750GB

    • 条数:用户指定每个数据集需要提供的条数;如果某个数据集的条数不满足用户需求,则提示用户重新输入,避免用户无感配置失败。

      条数:不提供配比,默认全都选上。

      表2 配置条数

      配置条数

      数据集大小上限500GB

      第一阶段

      第二阶段

      -

      数据集

      原始大小

      默认值

      手动修改

      实际条数

      D1

      100

      100

      100

      53

      D2

      50

      50

      50

      27

      D3

      200

      200

      100

      53

      训练数据集PD1

      /

      /

      1250

      667

support.huaweicloud.com/ugobs-obs-pangulm/pangulm_03_0044.html