检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建图片类数据集标注任务 创建图片类数据集标注任务前,请先完成创建图片类数据集加工任务。 创建图片类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。
图2 创建评估任务 在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员 评估人员设置完成
创建图片类数据集评估标准 ModelArts Studio大模型开发平台针对图片数据集预设的一套评估标准,涵盖了图像清晰度、分辨率、标签准确性、图像一致性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建图片类数据集评估任务。
在“创建加工数据集”页面,选择需要加工的图片类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”页面。对于图片类数据集,可选择的加工算子及参数配置请参见表1、表2。
获取图片类数据集评估报告 ModelArts Studio大模型开发平台提供了详细的质量评估报告,帮助用户全面了解数据集的质量情况。获取数据集评估报告步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
上线加工后的图片类数据集 加工后的图片类数据集需要执行上线操作,用于后续的数据标注、评估、发布任务,具体步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据加工”,在数据集操作列单击“上线”,执行上线操作。
及移交的数量。 图3 移交审核任务 进入审核页面后,可通过单击“通过”或“不通过”逐一对数据进行审核,直至所有数据审核完成,期间可对不满足要求的数据进行驳回,驳回后将分给标注人员重新标注。 父主题: 标注图片类数据集
上线标注后的图片类数据集 数据集标注完成并且审核无问题后,需要对该数据集执行上线操作。上线后的数据集可以用于后续的数据评估、发布任务。 上线标注后的数据集步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
Studio大模型开发平台,进入所需空间。 选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“图片 > 图片+Caption”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。 创建成功的数据集的任务状态为“成功”,单击操作列
乱码和无意义的字符����� 图片类加工算子能力清单 表2 图片类加工算子功能表 算子分类 算子名称 算子描述 数据过滤 图片元数据过滤 基于图片存储大小、宽高比属性进行图片/图文数据清洗。 图片去重 通过把图片结构化处理后,过滤重复的图片/图文对数据。 数据打标 图片鉴黄评分 对图片的涉黄程度进
标注图片类数据集 创建图片类数据集标注任务 审核图片类数据集标注结果 上线标注后的图片类数据集 父主题: 标注数据集
加工图片类数据集 创建图片类数据集加工任务 上线加工后的图片类数据集 父主题: 加工数据集
务场景选择“图片+Caption”、“图片+QA对”类型的数据。 图2 创建图片类数据集发布任务 设置发布方式。图片类数据集可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选
评估图片类数据集 创建图片类数据集评估标准 创建图片类数据集评估任务 获取图片类数据集评估报告 父主题: 评估数据集
式示例如下: 图片+QA对 图片支持tar,QA对支持jsonl 图片+QA对是指将一张图片和与之相关的问题及答案配对在一起,用于训练模型让其能够理解图片内容并回答与图片相关的问题。 图片:图片以tar包格式存储,可以多个tar包。tar包存储原始的图片,每张图片命名要求唯一(如abc
集”。 在“创建发布数据集”页面,选择“视频”类型的数据集。 图2 创建视频数据集发布任务 勾选所需要的数据集后,单击“下一步”进入数据过滤步骤。 数据过滤阶段可以设置多种过滤属性,对视频数据集进行筛选。例如,过滤掉数据集中低于360分辨率的视频。 如不需要进行数据过滤可直接单击“下一步”跳过该操作。
图2 创建评估任务 在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员 评估人员设置完成
生成新视频。 视频元数据过滤 基于视频元数据进行过滤,包括帧率、分辨率和视频时长。注:电影标准帧率为24或30FPS。 宽高比过滤 根据视频的宽高比进行过滤。 数据打标 视频鉴黄评分 对视频的涉黄程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为涉黄视频。
创建视频类数据集标注任务 创建视频类数据集标注任务前,请先完成创建视频类数据集加工任务。 创建视频类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。
在“创建加工数据集”页面,选择需要加工的视频类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”页面。对于视频类数据集,可选择的加工算子及参数配置请参见表1。