检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的图片类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集
创建图片类数据集评估任务 创建图片类数据集评估任务前,请先完成创建图片类数据集评估标准。 创建图片类数据集评估任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据评估 > 评估任务”,单击界面右上角“创建评估任务”。
获取图片类数据集评估报告 ModelArts Studio大模型开发平台提供了详细的质量评估报告,帮助用户全面了解数据集的质量情况。获取数据集评估报告步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 >
请检查网络是否正常,是否可以访问OBS桶中的数据。 数据评估 annotate type is invalid. 请检查上传的数据中,使用的数据标注类型、数据标注要求与平台要求的是否一致。 annotate data not exist. 待评测数据不存在,请检查数据是否导入成功,OBS桶是否为空。
Studio大模型开发平台的空间资产中,包括数据和模型两类资产。这些资产为用户提供了集中管理和高效操作的基础,便于用户实现统一查看和操作管理。 数据资产:用户已发布的数据集将作为数据资产存放在空间资产中。用户可以查看数据集的详细信息,包括数据格式、大小、配比比例等。同时,平台支持数据集的删除等管理操作,
审核图片类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。
创建图片类数据集标注任务 创建图片类数据集标注任务前,请先完成创建图片类数据集加工任务。 创建图片类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。
类数据集评估任务。 创建图片类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据评估 > 评估标准”,平台预置的文本类数据集评估标准“图片数据质量标准 V1.0”,单击评估标准名称,可以查看具体的评估项。
行上线操作。 单击数据集名称查看加工任务的基本信息、加工详情、加工后的数据文件以及数据血缘。 在“基本信息”页签可查看数据集的详细信息及操作概览。 在“加工详情”页签可以查看数据集的加工步骤和运行日志。 在“数据文件”页签可下载加工后的数据文件,可以与原始数据进行比对,查看加工前后的差异。
> 数据标注 > 标注管理” 在“标注管理”页面,单击操作列的“上线”对数据集进行上线。 图2 上线标注后的数据集 对不再使用的数据集可在操作列执行下线操作。若对当前标注数据集已执行发布操作发布图片类数据集,则不可将该标注数据集下线。 父主题: 标注图片类数据集
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
气象类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单
选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“图片 > 图片+Caption”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。 创建成功的数据集的任务状态为“成功”,单击操作列的“上线”按钮,将该数据集上线,用于后续标注操作。
文本类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤三类,文本类加工算子能力清单见表1。
图片类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类加工算子,算子能力清单见表1、表2。 图文类加工算子能力清单 表1
使用盘古加工算子构建单轮问答数据集 场景描述 此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具,能够帮助您将原始数据转化为所需的格式。通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。 准备工作 请提前准备数据并上传至OB
该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 支持区域: 西南-贵阳一 使用数据工程准备与处理数据集 检测数据集质量
数据量足够,为什么盘古大模型微调效果仍然不好 这种情况可能是由于以下原因导致的,建议您排查: 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大、样本中存在异常数据、样本的多样性较差,都将影响模型训练的效果,建议提升您的数据质量。 父主题: 大模型微调训练类问题
具备数据获取、清洗、配比和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。
数据量和质量均满足要求,为什么盘古大模型微调效果不好 这种情况可能是由于以下原因导致的,建议您排查: 训练参数设置:您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题,这种情况大概率是由于训练参数设置的不合理而导致了欠拟合或过拟合。请检查训练参数中的 “训练轮次”或