检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标注管理 在“创建标注任务”页面选择需要标注的加工后的图片类数据集,并设置标注项。 当选择“图片Caption”标注项时,可以设置使用AI大模型对数据集进行预标注。启动预标注将会借助AI模型生成标注内容,这些内容不会覆盖原始数据集,仅作为标注人员的参考,以提高标注效率。 图3 创建标注任务
创建图片类数据集评估标准 ModelArts Studio大模型开发平台针对图片数据集预设的一套评估标准,涵盖了图像清晰度、分辨率、标签准确性、图像一致性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建图片类数据集评估任务。
创建图片类数据集评估任务 创建图片类数据集评估任务前,请先完成创建图片类数据集评估标准。 创建图片类数据集评估任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据评估 > 评估任务”,单击界面右上角“创建评估任务”。
获取图片类数据集评估报告 ModelArts Studio大模型开发平台提供了详细的质量评估报告,帮助用户全面了解数据集的质量情况。获取数据集评估报告步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
单击数据集名称查看加工任务的基本信息、加工详情、加工后的数据文件以及数据血缘。 在“基本信息”页签可查看数据集的详细信息及操作概览。 在“加工详情”页签可以查看数据集的加工步骤和运行日志。 在“数据文件”页签可下载加工后的数据文件,可以与原始数据进行比对,查看加工前后的差异。 在“数据血
上线标注后的图片类数据集 数据集标注完成并且审核无问题后,需要对该数据集执行上线操作。上线后的数据集可以用于后续的数据评估、发布任务。 上线标注后的数据集步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
在“创建加工数据集”页面,选择需要加工的图片类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”页面。对于图片类数据集,可选择的加工算子及参数配置请参见表1、表2。
单击操作列“移交”设置移交人员以及移交的数量。 图3 移交审核任务 进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成,期间可对不满足要求的数据进行驳回,驳回后将分给标注人员重新标注。 父主题: 标注图片类数据集
数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“图片 > 图片+Caption”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。 创建成功的数据集的任务状态为“成功”,单击操作列的“上线”按钮,将该数据集上线,用于后续标注操作。 选择左侧“数据工程
式示例如下: 图片+QA对 图片支持tar,QA对支持jsonl 图片+QA对是指将一张图片和与之相关的问题及答案配对在一起,用于训练模型让其能够理解图片内容并回答与图片相关的问题。 图片:图片以tar包格式存储,可以多个tar包。tar包存储原始的图片,每张图片命名要求唯一(如abc
◆ 乱码和无意义的字符����� 图片类加工算子能力清单 表2 图片类加工算子功能表 算子分类 算子名称 算子描述 数据过滤 图片元数据过滤 基于图片存储大小、宽高比属性进行图片/图文数据清洗。 图片去重 通过把图片结构化处理后,过滤重复的图片/图文对数据。 数据打标 图片鉴黄评分
务场景选择“图片+Caption”、“图片+QA对”类型的数据。 图2 创建图片类数据集发布任务 设置发布方式。图片类数据集可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选
标注图片类数据集 创建图片类数据集标注任务 审核图片类数据集标注结果 上线标注后的图片类数据集 父主题: 标注数据集
加工图片类数据集 创建图片类数据集加工任务 上线加工后的图片类数据集 父主题: 加工数据集
评估图片类数据集 创建图片类数据集评估标准 创建图片类数据集评估任务 获取图片类数据集评估报告 父主题: 评估数据集
filename 是 被标注文件的文件名。 size 是 表示图像的像素信息。 width:必选字段,图像的宽度。 height:必选字段,图像的高度。 depth:必选字段,图像的通道数。 图像的通道数是指图像中每个像素的颜色信息的维度。常用的RGB图像默认有3个通道。3通道表
确保生成的数据集符合训练的标准。 数据标注:对于无标签的数据,平台支持进行标注或重新标注,以提升数据集的标注质量。针对文本和图片类数据集,平台还提供AI预标注功能,利用盘古大模型的智能能力,显著降低人工标注的工作量和成本,从而提高标注效率。 数据评估:平台支持对处理后的数据进行质
全链路信息调测评估:平台提供对Agent执行过程的全链路信息观测与调试调优,通过对信息的分层分析和展示,为开发者提供了AI应用在不同层级的运行情况指导和操作,提升观测和调试效率。 Agent开发平台应用场景 当前,基于Agent平台可以构建两种类型的应用,一种是针对文本生成、文本检索的知识型Agent,如搜
度减少人工标注的工作量和时间成本。此外,AI预标注不仅提高了标注效率,还能减少人为错误,提高标注的一致性和准确性。标注质量的提高直接增强了训练数据的有效性,确保训练模型时能获得更高质量的学习数据,从而推动模型性能的提升。 数据评估:数据的质量直接决定了大模型的表现,因此,数据质量
通过灵活调整数据集的比例配比,用户能够保证数据的均衡性,避免因数据分布不均可能引发的问题,从而构建高质量、适应性强的数据集,为后续的模型训练、验证和应用提供坚实的数据支持。 数据发布意义 数据发布不仅包括数据的格式转换,还涉及数据比例的调整,以确保数据在规模、质量和内容上满足训练标