检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
只有上线后的数据集才可用于后续的数据加工、标注、评估、发布操作。 管理原始数据集 原始数据集上线成功后,支持查看数据集详情、下载数据集、查看数据血缘、以及对数据集进行删除等操作。 支持查看数据集详情。在“数据获取”页面,单击数据集名称,在“基本信息”页签可查看当前数据集的创建人、创建时
数据获取:用户可以轻松将多种类型的数据导入ModelArts Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式,确保不同业务场景下的数据获取需求得到满足。 数据加工:平台提供强大的数据加工功能,涵盖数据清洗、过滤等操作
助用户全面了解数据的健康状况。数据评估结果能够为后续的数据优化提供明确指导,帮助用户在数据发布前进行最后的质量把关,确保数据集的可靠性,为大模型的训练提供高质量的基础数据。 数据发布:数据发布是数据工程流程的最后一步。平台支持将经过加工、标注和评估的数据集以多种格式进行发布,包括
上线原始数据集 在正式发布数据集前,需要执行上线操作。 上线原始数据集 加工数据集 创建文本类数据集加工任务 数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 说明: 盘古NLP大模型仅支持接入文本类数据集。 若数据类型为文档、网页,则加工数据集为必选项,否则为可选项。
创建原始数据集 数据集是指用于模型训练或评测的一组相关数据样本,上传至平台的数据将被创建为原始数据集进行统一管理。 上线原始数据集 在正式发布数据集前,需要执行上线操作。 加工数据集(可选) 创建数据集加工任务 当数据集中存在异常数据、噪声数据、或不符合分析需求的数据时,可以通过加
数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“预测”类型的数据集。并根据训练任务场景选择“时序”、“回归分类”类型的数据。 图2 创建预测类数据集发布任务 当前预测类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“其他”类型的数据集,当前可选“自定义”类型的数据。 图2 创建其他类数据集发布任务 当前其他类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写数
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“视频”类型的数据集。 图2 创建视频数据集发布任务 勾选所需要的数据集后,单击“下一步”进入数据过滤步骤。 数据过滤阶段可以设置多种过滤属性,对视频数据集进行筛选。例如,过滤掉数据集中低于360分辨率的视频。
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“气象”类型的数据集,当前可选“海洋气象”类型的数据。 图2 创建气象类数据集发布任务 当前气象类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的视频类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集
获取视频类数据集评估报告 ModelArts Studio大模型开发平台提供了详细的质量评估报告,帮助用户全面了解数据集的质量情况。获取数据集评估报告步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 >
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的气象类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集
单轮问答”类型的数据集。 图2 创建文本数据集发布任务 设置发布方式。除“问答排序”类型外,其余数据类型可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
获取文本类数据集评估报告 ModelArts Studio大模型开发平台提供了详细的质量评估报告,帮助用户全面了解数据集的质量情况。获取数据集评估报告步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 >
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的文本类数据集,并设置数据集的名称和描述。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击
据集评估任务。 创建视频类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据评估 > 评估标准”,平台预置的文本类数据集评估标准“视频数据质量标准 V1.0”,单击评估标准名称,可以查看具体的评估项。
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种
管理盘古数据资产 数据资产介绍 用户发布的数据集会被纳入数据资产,集中存储在空间资产中。平台为数据资产提供了一系列管理功能,包括查看数据集的详细信息、追踪操作记录、以及数据集的删除管理等。这不仅便于用户对已发布数据集的集中管理,还可帮助用户了解每个数据集的使用情况,从而简化数据资产的
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针