检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“格式配置”分页,选择发布格式,单击“下一步”。当前支持默认格式、盘古格式、自定义格式: “默认格式”为数据工程功能支持的原始格式。 “盘古格式”为使用盘古大模型训练或评测时所需要使用的数据格式。 “自定义格式”可以通过自定义格式转换脚本,将数据集转化为适用于其他模型的格式。例如盘古数据集中,contex
进入操作空间 在左侧导航栏中选择“数据工程 > 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“预测”类型的数据集。并根据训练任务场景选择“时序”、“回归分类”类型的数据。 图2 创建预测类数据集发布任务 当前预测类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。
数据集发布场景介绍 数据发布概念 数据发布是指将经过加工、标注、评估的数据集导出并生成符合特定任务或模型训练需求的正式数据集。数据发布是数据处理流程中的关键步骤,也是数据集构建的最终环节。 数据发布过程不仅包括将数据转化为适合使用的格式,还要求根据任务需求对数据集的比例进行科学调整,确保数据集在规模、质量和内容上满足模型训练的标准。
发现潜在问题并加以解决。 在构建和使用数据集的过程中,数据评估是确保数据质量的关键步骤,直接影响模型的性能和应用效果。高质量的数据集能够显著提升模型的准确性,并增强模型在实际应用中的可靠性与稳定性。因此,数据评估是数据工程中不可或缺的一环,帮助用户在数据准备阶段识别并解决数据中的
html 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}
标注视频类数据集 创建视频类数据集标注任务 审核视频类数据集标注结果 上线标注后的视频类数据集 父主题: 标注数据集
jackson.datatype.jsr310.JavaTimeModule 用户本地工程引入了jackson框架,和华为云sdk引入的jackson框架冲突了,导致会报找不到某个类,建议客户在本地引入bundle包报来避免出现依赖冲突。 <dependency> <groupId>com
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时支持导入mp4或avi格式文件,同一文件夹下mp4或avi格式的所有视频文件会被同时上传导入,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi
发布视频类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 视频类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
发布气象类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
加工图片类数据集 创建图片类数据集加工任务 上线加工后的图片类数据集 父主题: 加工数据集
标注图片类数据集 创建图片类数据集标注任务 审核图片类数据集标注结果 上线标注后的图片类数据集 父主题: 标注数据集
数据集加工场景介绍 数据加工概念 数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作,以确保数据符合模型训练的标准和业务需求。 通过这一过程,用户能够优化数据质量,去除噪声和冗余信息,提升数据的准确性和一致性,为后续的模型训练提供
在“格式配置”分页,选择发布格式,单击“下一步”。当前支持默认格式、盘古格式、自定义格式: “默认格式”为数据工程功能支持的原始格式。 “盘古格式”为使用盘古大模型训练或评测时所需要使用的数据格式。 “自定义格式”可以通过自定义格式转换脚本,将数据集转化为适用于其他模型的格式。例如盘古数据集中,contex
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
可修改当前空间的名称与描述。 可查看当前空间的创建时间。 单击右上角“删除”,可删除当前空间。 删除空间属于高危操作,删除前请确保当前空间不再进行使用。 父主题: 创建并管理盘古工作空间
算子编排过程中,可以单击右上角“保存为新模板”将当前算子编排流程保存为模板,后续创建新的数据加工任务时,可以直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图4 算子编排 图5 选择加工模板 算子编排完成后,单击“立即执行”,平台会直接启动数据加工