检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
使用盘古加工算子构建单轮问答数据集 场景描述 此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具,能够帮助您将原始数据转化为所需的格式。通过使用加工算子,您可以提取、转换、过滤原始数据,生成适合大模型训练的数据集。 准备工作 请提前准备数据并上传至OB
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“其他”类型的数据集,当前可选“自定义”类型的数据。 图2 创建其他类数据集发布任务 当前其他类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写数
对”类型的数据。 图2 创建图片类数据集发布任务 设置发布方式。图片类数据集可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 若选择发布方式为“单个数据集”,选择数据集后,单击“下一步”。
数据集加工场景介绍 数据加工概念 数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作,以确保数据符合模型训练的标准和业务需求。 通过这一过程,用户能够优化数据质量,去除噪声和冗余信息,提升数据的准确性和一致性,为后续的模型训练提供
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“视频”类型的数据集。 图2 创建视频数据集发布任务 勾选所需要的数据集后,单击“下一步”进入数据过滤步骤。 数据过滤阶段可以设置多种过滤属性,对视频数据集进行筛选。例如,过滤掉数据集中低于360分辨率的视频。
> 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“气象”类型的数据集,当前可选“海洋气象”类型的数据。 图2 创建气象类数据集发布任务 当前气象类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。 设置数据集的“资产可见性”,填写
数据集格式要求 文本类数据集格式要求 视频类数据集格式要求 图片类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程准备与处理数据集
创建文本类数据集标注任务 创建文本类数据集标注任务前,请先完成创建文本类数据集加工任务。 创建文本类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。
选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“图片 > 图片+Caption”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。 创建成功的数据集的任务状态为“成功”,单击操作列的“上线”按钮,将该数据集上线,用于后续标注操作。
图6 评估数据集质量 在评估页面,可参考评估项对当前数据的问题进行标注,且不满足时需要单击“不通过”,满足则单击“通过”。 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。
审核文本类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。
审核视频类数据集标注结果 创建数据集标注任务时,如果设置了启用标注审核,在完成标注后可以在“标注审核”页面审核标注结果。 对于审核不合格的数据可以填写不合格原因并驳回给标注员重新标注。创建标注任务时如果指定了审核人员,则审核人员可以审核数据集,管理员(主账号)可以对所有数据集进行审核。
> 数据评估 > 评估任务”。 单击操作列“报告”可以查看详细的质量评估报告。 图2 查看数据集评估报告 在“查看评估报告”页面,可以查看评估概览、通过率、评估类别分布等信息。 如果数据集未完成全部评估,可以单击右上角“继续评估”,评估剩余的数据。 图3 查看评估报告详情 父主题:
加工视频类数据集 创建视频类数据集加工任务 上线加工后的视频类数据集 父主题: 加工数据集
加工气象类数据集 创建气象类数据集加工任务 上线加工后的气象类数据集 父主题: 加工数据集
创建图片类数据集标注任务 创建图片类数据集标注任务前,请先完成创建图片类数据集加工任务。 创建图片类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理”,单击页面右上角“创建标注任务”。
IMG_20180919_114945.xml 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。xml标注文件的详细说明请参见物体检测数据集标注文件说明。 图片+语义分割标注 训练数据为纯图片,要求为png格式。 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 图
> 数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的视频类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集
> 数据评估 > 评估任务”。 单击操作列“报告”可以查看详细的质量评估报告。 图2 查看数据集评估报告 在“查看评估报告”页面,可以查看评估概览、通过率、评估类别分布等信息。 如果数据集未完成全部评估,可以单击右上角“继续评估”,评估剩余的数据。 图3 查看评估报告详情 父主题: