盘古大模型 PANGULARGEMODELS-ModelArts Studio大模型开发平台使用流程:数据工程使用流程
数据工程使用流程
ModelArts Studio大模型开发平台提供了数据工程能力,帮助用户构造高质量的数据集,助力模型进行更好地预测和决策。
流程 |
子流程 |
说明 |
---|---|---|
导入数据至盘古平台 |
创建原始数据集 |
数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 |
上线原始数据集 |
在正式发布数据集前,需要执行上线操作。 |
|
加工数据集(可选) |
创建数据集加工任务 |
数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 |
上线加工后的数据集 |
对加工后的数据集执行上线操作。 |
|
标注数据集(可选) |
创建数据集标注任务 |
创建数据集标注任务,并对数据集执行标注操作,标注后的数据可以用于模型训练。 |
审核数据集标注结果 |
对数据集的标注结果进行审核。 |
|
上线标注后的数据集 |
对标注后的数据集执行上线操作。 |
|
评估数据集(可选) |
创建数据集评估标准 |
创建数据集评估标准。评估文本通顺性、信息充分性、内容有效性等。 |
创建数据集评估任务 |
创建数据集质量评估任务,并基于评估标注对数据逐一评估其质量,评估后的数据可以用于模型训练。 |
|
获取数据集评估报告 |
查看数据集评估任务的进展和数据集质量。 |
|
发布数据集 |
创建数据集发布任务 |
创建数据集发布任务,并进行正式的数据集发布操作,可用于后续的训练任务。 平台支持发布的数据集格式为默认格式、盘古格式,可按需进行数据集格式转换。
|