检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
Studio大模型开发平台针对文本数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts
工算子能力清单见表1。 表1 文本类加工算子能力清单 算子分类 算子名称 算子描述 数据提取 WORD内容提取 从Word文档中提取文字,并保留原文档的目录、标题和正文等结构,不保留图片、表格、公式、页眉、页脚。 TXT内容提取 从TXT文件中提取所有文本内容。 CSV内容提取
算子编排过程中,可以单击右上角“保存为新模板”将当前算子编排流程保存为模板,后续创建新的数据加工任务时,可以直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图4 算子编排 图5 选择加工模板 算子编排完成后,单击“立即执行”,平台会直接启动数据加工
评估任务”,单击界面右上角“创建评估任务”。 图2 创建评估任务 在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员
创建并管理盘古工作空间 盘古工作空间介绍 创建并管理盘古工作空间 管理盘古工作空间成员 父主题: 准备工作
标注管理”,单击页面右上角“创建标注任务”。 图2 标注管理 在“创建标注任务”页面选择需要标注的加工后的视频类数据集,并设置标注项。 当选择“视频Caption”标注项时,可以设置使用AI大模型对数据集进行预标注。启动预标注将会借助AI模型生成标注内容,这些内容不会覆盖原始数据集,仅作为标注人员的参考,以提高标注效率。
算子编排过程中,可以单击右上角“保存为新模板”将当前算子编排流程保存为模板,后续创建新的数据加工任务时,可以直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图4 算子编排 图5 选择加工模板 算子编排完成后,单击“立即执行”,平台会直接启动数据加工
获取视频类数据集评估报告 ModelArts Studio大模型开发平台提供了详细的质量评估报告,帮助用户全面了解数据集的质量情况。获取数据集评估报告步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
评估任务”,单击界面右上角“创建评估任务”。 图2 创建评估任务 在“数据集选择”页签选择需要进行评估的加工数据集,并设置抽样规格,即从数据集中抽取一定比例数据用于评估。 图3 选择数据集 单击“下一步”选择需要使用的评估标准。标准选择完成后,单击“下一步”设置评估人员。 图4 选择评估标注 图5 选择评估人员
算子编排过程中,可以单击右上角“保存为新模板”将当前算子编排流程保存为模板,后续创建新的数据加工任务时,可以直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图4 算子编排 图5 选择加工模板 算子编排完成后,单击“立即执行”,平台会直接启动数据加工
在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理” 在“标注管理”页面,单击操作列的“上线”对数据集进行上线。 图2 上线标注后的数据集 对不再使用的数据集可在操作列执行下线操作。若对当前标注数据集已执行发布操作发布文本类数据集,则不可将该标注数据集下线。 父主题: 标注文本类数据集
在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理” 在“标注管理”页面,单击操作列的“上线”对数据集进行上线。 图2 上线标注后的数据集 对不再使用的数据集可在操作列执行下线操作。若对当前标注数据集已执行发布操作发布视频类数据集,则不可将该标注数据集下线。 父主题: 标注视频类数据集
审核文本类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。 登录ModelArts
上线加工后的文本类数据集 加工后的文本类数据集需要执行上线操作,用于后续的数据标注、评估、发布任务,具体步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据加工”,在数据集操作列单击“上线”,执行上线操作。
审核视频类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。 登录ModelArts
上线加工后的气象类数据集 加工后的气象类数据集需要执行上线操作,用于后续的数据发布操作,具体步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据加工”,在数据集操作列单击“上线”,执行上线操作。
获取文本类数据集评估报告 ModelArts Studio大模型开发平台提供了详细的质量评估报告,帮助用户全面了解数据集的质量情况。获取数据集评估报告步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
图文类加工算子能力清单 表1 图文类加工算子能力清单 算子分类 算子名称 算子描述 数据提取 图文提取 提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码)。 数据过滤 图文文本长度过滤 过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。
> 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。 图2 标注管理 在“创建标注任务”页面选择需要标注的加工后的文本类数据集,并设置标注项。 设置标注项时,不同类型的数据文件对应的标注项也有所差异,可基于页面提示进行设置。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。