盘古大模型 PANGULARGEMODELS-创建一个训练数据集:数据配比功能介绍
数据配比功能介绍
用户针对业务场景,可以通过数据配比功能,自由组合多个数据集,并控制数据占比。
- 数据集来源:用户自己创建并且已经发布的数据集。
- 数据集组合:选择多个数据集,并且可以指定数据之间的配比和条数,最大支持20个。
- 配比的作用:支持用户灵活调整数据集的比例。
比例:用户自己创建的数据集,默认1:1:1的方式。例如,3个数据集D1(100GB)、D2(50GB)、D3(200GB),配比按照最大比例去配比,即为D1(50GB)、D2(50GB)、D3(50GB),则3*50=150GB,此时用户可以控制最大的数据量,限制数据量大小,如100GB。
表1 配置比例 配置比例
数据集大小上限500GB
第一阶段
第二阶段
-
数据集
原始大小
默认值
手动修改
实际大小
D1
100GB
1
1
100GB
D2
50GB
1
2
50GB
D3
200GB
1
1
200GB
训练数据集PD1
/
15
15
750GB
- 条数:用户指定每个数据集需要提供的条数;如果某个数据集的条数不满足用户需求,则提示用户重新输入,避免用户无感配置失败。
表2 配置条数 配置条数
数据集大小上限500GB
第一阶段
第二阶段
-
数据集
原始大小
默认值
手动修改
实际条数
D1
100
100
100
53
D2
50
50
50
27
D3
200
200
100
53
训练数据集PD1
/
/
1250
667
- 配比的作用:支持用户灵活调整数据集的比例。