检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据集标注场景介绍 数据标注概念 数据标注是数据工程中的关键步骤,旨在为无标签的数据集添加准确的标签,从而为模型训练提供有效的监督信号。标注数据的质量直接影响模型的训练效果和精度,因此高效、准确的标注过程至关重要。数据标注不仅仅是人工输入,它还涉及对数据内容的理解和分类,以确保标签精准地反映数据的特征和用途。
除文本、图片、视频、气象、预测类数据集外,用户训练模型时如果使用较特殊的数据集,ModelArts Studio大模型开发平台支持导入用户自定义的数据集。 例如,在训练CV类算法(如图片分类、图片分割、图片检测等任务)时,用户需使用“其他”类型的数据集。 其他类数据集可直接执行发布操作
评估图片类数据集 创建图片类数据集评估标准 创建图片类数据集评估任务 获取图片类数据集评估报告 父主题: 评估数据集
发布视频类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 视频类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
发布气象类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
发布预测类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
加工图片类数据集 创建图片类数据集加工任务 上线加工后的图片类数据集 父主题: 加工数据集
标注图片类数据集 创建图片类数据集标注任务 审核图片类数据集标注结果 上线标注后的图片类数据集 父主题: 标注数据集
数据集加工场景介绍 数据加工概念 数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作,以确保数据符合模型训练的标准和业务需求。 通过这一过程,用户能够优化数据质量,去除噪声和冗余信息,提升数据的准确性和一致性,为后续的模型训练提供
在“格式配置”分页,选择发布格式,单击“下一步”。当前支持默认格式、盘古格式、自定义格式: “默认格式”为数据工程功能支持的原始格式。 “盘古格式”为使用盘古大模型训练或评测时所需要使用的数据格式。 “自定义格式”可以通过自定义格式转换脚本,将数据集转化为适用于其他模型的格式。例如盘古数据集中,contex
html 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时支持导入mp4或avi格式文件,同一文件夹下mp4或avi格式的所有视频文件会被同时上传导入,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg
{"9.": "⑨|⑼|㊈|⒐|⓽|➒|❾|➈"} {"10.": "⑩|⑽|㊉|⒑|⓾|➓|❿|➉"} 自定义正则替换 数据条目不变下,使用自定义正则表达式替换文本内容。 示例如下: 去除“参考文献”以及之后的内容:\n参考文献[\s\S]* 针对pdf的内容,去除“0 引言”
Studio大模型开发平台针对视频数据集预设了一套评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建视频类数据集评估任务。 创建视频类数据集评估标准步骤如下: 登录ModelArts
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
气象类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单
算子编排过程中,可以单击右上角“保存为新模板”将当前算子编排流程保存为模板,后续创建新的数据加工任务时,可以直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图4 算子编排 图5 选择加工模板 算子编排完成后,单击“立即执行”,平台会直接启动数据加工