检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
构建的优点是数据丰富度更高,缺点是成本较高。 当您将无监督数据构建为有监督数据时,请尽可能保证数据的多样性。建议将不同文本构建为不同的场景,甚至将同一段文本构建为多个不同的场景。 不同规格的模型支持的长度不同,当您将无监督数据构建为有监督数据时,请确保数据长度符合模型长度限制。 父主题:
任务,可能需要大量的文本数据;如果是计算机视觉任务,则需要图像或视频数据。 数据预处理:数据预处理是数据准备过程中的重要环节,旨在提高数据质量和适应模型的需求。常见的数据预处理操作包括: 去除重复数据:确保数据集中每条数据的唯一性。 填补缺失值:填充数据中的缺失部分,常用方法包括均值填充、中位数填充或删除缺失数据。
气象类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单
助用户全面了解数据的健康状况。数据评估结果能够为后续的数据优化提供明确指导,帮助用户在数据发布前进行最后的质量把关,确保数据集的可靠性,为大模型的训练提供高质量的基础数据。 数据发布:数据发布是数据工程流程的最后一步。平台支持将经过加工、标注和评估的数据集以多种格式进行发布,包括
微调。 预训练阶段:预训练是模型学习基础知识的过程,基于大规模通用数据集进行。例如,在区域海洋要素预测中,可以重新定义深海变量、海表变量,调整深度层、时间分辨率、水平分辨率以及区域范围,以适配自定义区域的模型场景。此阶段需预先准备区域的高精度数据。 微调阶段:在预训练模型的基础上
使用数据工程准备与处理数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 标注数据集 评估数据集 发布数据集 数据工程常见报错与解决方案
选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“图片 > 图片+Caption”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。 创建成功的数据集的任务状态为“成功”,单击操作列的“上线”按钮,将该数据集上线,用于后续标注操作。
单轮问答”类型的数据集。 图2 创建文本数据集发布任务 设置发布方式。除“问答排序”类型外,其余数据类型可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
数据集标注场景介绍 数据标注概念 数据标注是数据工程中的关键步骤,旨在为无标签的数据集添加准确的标签,从而为模型训练提供有效的监督信号。标注数据的质量直接影响模型的训练效果和精度,因此高效、准确的标注过程至关重要。数据标注不仅仅是人工输入,它还涉及对数据内容的理解和分类,以确保标签精准地反映数据的特征和用途。
使用盘古加工算子构建单轮问答数据集 场景描述 此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具,能够帮助您将原始数据转化为所需的格式。通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。 准备工作 请提前准备数据并上传至OB
“训练轮次”或“学习率”等参数的设置,根据实际情况调整训练参数,帮助模型更好学习。 Prompt设置:请检查您使用的Prompt,对于同一个目标任务,建议在推理阶段使用和训练数据相同或相似的PROMPT,才能发挥出模型的最佳效果。 模型规格:理论上模型的参数规模越大,模型能学到的知识就越多,能
创建原始数据集 数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 上线原始数据集 在正式发布数据集前,需要执行上线操作。 加工数据集(可选) 创建数据集加工任务 当数据集中存在异常数据、噪声数据、或不符合分析需求的数据时,可以通过加
对”类型的数据。 图2 创建图片类数据集发布任务 设置发布方式。图片类数据集可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
文本类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤三类,文本类加工算子能力清单见表1。
图片类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类加工算子,算子能力清单见表1、表2。 图文类加工算子能力清单 表1
发布数据集 数据集发布场景介绍 发布文本类数据集 发布视频类数据集 发布图片类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 父主题: 使用数据工程准备与处理数据集
加工数据集 数据集加工场景介绍 数据集加工算子介绍 加工文本类数据集 加工视频类数据集 加工图片类数据集 加工气象类数据集 父主题: 使用数据工程准备与处理数据集
评估数据集 数据集评估场景介绍 评估文本类数据集 评估视频类数据集 评估图片类数据集 父主题: 使用数据工程准备与处理数据集
标注数据集 数据集标注场景介绍 标注文本类数据集 标注视频类数据集 标注图片类数据集 父主题: 使用数据工程准备与处理数据集
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。