盘古大模型 PANGULARGEMODELS-ModelArts Studio大模型开发平台使用流程:数据工程使用流程

时间:2024-12-03 10:24:58

数据工程使用流程

ModelArts Studio大模型开发平台提供了数据工程能力,帮助用户构造高质量的数据集,助力模型进行更好地预测和决策。

数据工程使用流程见图3表3

图3 数据工程使用流程图
表3 数据工程使用流程表

流程

子流程

说明

导入数据至盘古平台

创建原始数据集

数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。

上线原始数据集

在正式发布数据集前,需要执行上线操作。

加工数据集(可选)

创建数据集加工任务

数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。

上线加工后的数据集

对加工后的数据集执行上线操作。

标注数据集(可选)

创建数据集标注任务

创建数据集标注任务,并对数据集执行标注操作,标注后的数据可以用于模型训练。

审核数据集标注结果

对数据集的标注结果进行审核。

上线标注后的数据集

对标注后的数据集执行上线操作。

评估数据集(可选)

创建数据集评估标准

创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。

创建数据集评估任务

创建数据集质量评估任务,并基于评估标注对数据逐一评估其质量,评估后的数据可以用于模型训练。

获取数据集评估报告

查看数据集评估任务的进展和数据集质量。

发布数据集

创建数据集发布任务

创建数据集发布任务,并进行正式的数据集发布操作,可用于后续的训练任务。

平台支持发布的数据集格式为默认格式、盘古格式,可按需进行数据集格式转换

  • 默认格式:平台默认的格式。
  • 盘古格式:训练盘古大模型时,需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。
support.huaweicloud.com/usermanual-pangulm/pangulm_04_0001.html