搜索_华为云

数据集发布场景介绍 - 盘古大模型 PanguLargeModels

提升模型性能。数据配比数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。数据流通数据流通是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。支持的发布格式

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
发布文本类数据集 - 盘古大模型 PanguLargeModels

发布文本类数据集评估文本类数据集配比文本类数据集流通文本类数据集父主题：发布数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
加工文本类数据集 - 盘古大模型 PanguLargeModels

加工文本类数据集清洗文本类数据集合成文本类数据集标注文本类数据集父主题：加工数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
发布视频类数据集 - 盘古大模型 PanguLargeModels

发布视频类数据集评估视频类数据集流通视频类数据集父主题：发布数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
数据集清洗算子介绍 - 盘古大模型 PanguLargeModels

数据集清洗算子介绍文本类清洗算子能力清单视频类清洗算子能力清单图片类清洗算子能力清单气象类清洗算子能力清单父主题：加工数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
加工视频类数据集 - 盘古大模型 PanguLargeModels

加工视频类数据集清洗视频类数据集标注视频类数据集父主题：加工数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

其他类数据集格式要求除文本、图片、视频、气象、预测类数据集外，平台还支持导入其他类数据集，即用户训练模型时使用的自定义数据集。其他类数据集支持发布其他类数据集操作，不支持数据加工操作。其他类数据集要求单个文件大小不超过50GB，单个压缩包大小不超过50GB，文件数量最多1000个。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
加工气象类数据集 - 盘古大模型 PanguLargeModels

加工气象类数据集清洗气象类数据集父主题：加工数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
气象类数据集格式要求 - 盘古大模型 PanguLargeModels

气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集，该数据集当前包括海洋气象数据。海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术，重新处理历史观测数据，生成高质量的气象记录。这些数据既可以覆盖全球范围，也可以针

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
发布数据集 - 盘古大模型 PanguLargeModels

发布数据集数据集发布场景介绍发布文本类数据集发布图片类数据集发布视频类数据集发布气象类数据集发布预测类数据集发布其他类数据集管理发布后的数据集父主题：使用数据工程构建数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
加工数据集 - 盘古大模型 PanguLargeModels

加工数据集数据集加工场景介绍数据集清洗算子介绍加工文本类数据集加工图片类数据集加工视频类数据集加工气象类数据集管理加工后的数据集父主题：使用数据工程构建数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
管理发布后的数据集 - 盘古大模型 PanguLargeModels

在“操作记录”页签可以查看数据集所经历的操作及状态等信息。单击操作列的“删除”，可删除不需要的数据集。如果需要恢复删除的数据集，可单击右上角“显示已删除数据”，被删除的数据集将在列表显示，可将数据集恢复。如果需要彻底删除数据集，可单击数据集名称进入详情页，确认数据集内容后彻底删除该数据集。删

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
预测类数据集格式要求 - 盘古大模型 PanguLargeModels

目录下只有1个数据文件时，文件无命名要求。目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样，如train01.csv；验证数据名称需包含eval字样；测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
发布图片类数据集 - 盘古大模型 PanguLargeModels

发布图片类数据集评估图片类数据集配比图片类数据集流通图片类数据集父主题：发布数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
加工图片类数据集 - 盘古大模型 PanguLargeModels

加工图片类数据集清洗图片类数据集标注图片类数据集父主题：加工数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
视频类数据集格式要求 - 盘古大模型 PanguLargeModels

视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。表1 视频类数据集格式要求文件内容文件格式文件要求视频 mp4或avi 支持mp4、avi视频格式上传，所有视频可以放在多个文件夹

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
文本类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。表1 文本类数据集格式要求文件内容文件格式文件要求文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB，文件数量最多1000个。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
数据集加工场景介绍 - 盘古大模型 PanguLargeModels

量和针对性处理，支持高效的模型训练。通过数据加工，用户能够快速构建高质量的数据集，推动大模型的成功开发。支持数据加工的数据集类型当前支持数据加工操作的数据集类型见表1。表1 支持数据加工操作的数据集类型数据类型数据清洗数据合成数据标注文本类 √ √ √ 图片类 √

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
图片类数据集格式要求 - 盘古大模型 PanguLargeModels

图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。表1 图片类数据集格式要求文件内容文件格式文件要求仅图片 tar、图片目录图片：支持jpg、jpeg、png、bmp类型。 ta

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持文本类数据集的清洗操作，分为数据提取、数据转换、数据过滤三类，文本类加工算子能力清单见表1。表1 文本类清洗算子能力清单算子分类算子名称算子描述

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍

总条数： 126

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

数据集发布场景介绍 - 盘古大模型 PanguLargeModels

发布文本类数据集 - 盘古大模型 PanguLargeModels

加工文本类数据集 - 盘古大模型 PanguLargeModels

发布视频类数据集 - 盘古大模型 PanguLargeModels

数据集清洗算子介绍 - 盘古大模型 PanguLargeModels

加工视频类数据集 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

加工气象类数据集 - 盘古大模型 PanguLargeModels

气象类数据集格式要求 - 盘古大模型 PanguLargeModels

发布数据集 - 盘古大模型 PanguLargeModels

加工数据集 - 盘古大模型 PanguLargeModels

管理发布后的数据集 - 盘古大模型 PanguLargeModels

预测类数据集格式要求 - 盘古大模型 PanguLargeModels

发布图片类数据集 - 盘古大模型 PanguLargeModels

加工图片类数据集 - 盘古大模型 PanguLargeModels

视频类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

数据集加工场景介绍 - 盘古大模型 PanguLargeModels

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线