搜索_华为云

视频类数据集格式要求 - 盘古大模型 PanguLargeModels

同时上传导入，具体格式要求详见表1。表1 视频类数据集格式要求文件内容文件格式文件要求视频 mp4或avi 支持mp4、avi视频格式上传，所有视频可以放在多个文件夹下，每个文件夹下可以同时包含mp4或avi格式的视频。数据集最大1000万个文件，单文件最大100GB，整个数据集最大100TB。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
文本类数据集格式要求 - 盘古大模型 PanguLargeModels

文件格式文件要求文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。网页 html 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。预训练文本 jsonl jsonl格式：text表示预

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

数据转换图文异常字符过滤将文本数据中携带的异常字符替换为空值，数据条目不变。不可见字符，比如U+0000-U+001F 表情符六网页标签符号<p> 特殊符号，比如● █ ◆ 乱码和无意义的字符�� 图片类加工算子能力清单表2 图片类加工算子功能表算子分类算子名称

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

其他类数据集格式要求除文本、图片、视频、气象、预测类数据集外，用户训练模型时如果使用较特殊的数据集，ModelArts Studio大模型开发平台支持导入用户自定义的数据集。例如，在训练CV类算法（如图片分类、图片分割、图片检测等任务）时，用户需使用“其他”类型的数据集。其

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

查找数据集每一条数据中携带的异常字符，并将异常字符替换为空值，数据条目不变。不可见字符，比如U+0000-U+001F。表情符六。网页标签符号<p>。特殊符号，比如● █ ◆。乱码和无意义的字符��。自定义正则过滤删除符合自定义正则表达式的数据。自定义关键词过滤

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
数据集格式要求 - 盘古大模型 PanguLargeModels

数据集格式要求文本类数据集格式要求视频类数据集格式要求图片类数据集格式要求气象类数据集格式要求预测类数据集格式要求其他类数据集格式要求父主题：使用数据工程准备与处理数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
视频类加工算子能力清单 - 盘古大模型 PanguLargeModels

视频类加工算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持视频类数据集的加工操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
发布视频类数据集 - 盘古大模型 PanguLargeModels

发布视频类数据集原始数据集和加工后的数据集不可以直接用于模型训练，需要独立创建一个“发布数据集”。视频类数据集当前仅支持发布为“默认格式”，操作步骤如下：登录ModelArts Studio大模型开发平台，进入所需操作空间。图1 进入操作空间在左侧导航栏中选择“数据工程

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 发布数据集
发布图片类数据集 - 盘古大模型 PanguLargeModels

发布图片类数据集原始数据集和加工后的数据集不可以直接用于模型训练，需要独立创建一个“发布数据集”。图片类数据集支持发布的格式为：默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要将数据集格式发布为“盘古格式”。自定义格式：文本类数据集可以使用自定义脚本进行数据格式转换。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 发布数据集
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

数据集中若存在异常数据，可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。说明：盘古NLP大模型仅支持接入文本类数据集。若数据类型为文档、网页，则加工数据集为必选项，否则为可选项。创建文本类数据集加工任务上线加工后的数据集对加工后的数据集执行上线操作。上线加工后的文本类数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
发布文本类数据集 - 盘古大模型 PanguLargeModels

发布文本类数据集原始数据集和加工后的数据集不可以直接用于模型训练，需要独立创建一个“发布数据集”。文本类数据集支持发布的格式为：默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要将数据集格式发布为“盘古格式”。自定义格式：文本类数据集可以使用自定义脚本进行数据格式转换。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 发布数据集
气象类加工算子能力清单 - 盘古大模型 PanguLargeModels

气象类加工算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持气象类数据集的加工操作，气象类加工算子能力清单见表1。表1 气象类加工算子能力清单

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
数据工程介绍 - 盘古大模型 PanguLargeModels

平台支持的数据类型数据类型数据内容数据文件格式要求文本类文档支持txt、mobi、epub、docx、pdf，详见文本类数据集格式要求。网页支持html，详见文本类数据集格式要求。预训练文本支持jsonl，详见文本类数据集格式要求。单轮问答支持jsonl、csv，详见文本类数据集格式要求。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
数据集加工场景介绍 - 盘古大模型 PanguLargeModels

数据集加工场景介绍数据加工概念数据加工是数据工程中的核心环节，旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作，以确保数据符合模型训练的标准和业务需求。通过这一过程，用户能够优化数据质量，去除噪声和冗余信息，提升数据的准确性和一致性，为后续的模型训练提供

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集
基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

基于NL2JSON助力金融精细化运营场景介绍在金融场景中，客户日常业务依赖大量报表数据来支持精细化运营，但手工定制开发往往耗费大量人力。因此，希望借助大模型消除语义歧义性，识别用户查询意图，并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍大模型（Large Models）通常指的是具有海量参数和复杂结构的深度学习模型，广泛应用于自然语言处理（NLP）等领域。开发一个大模型的流程可以分为以下几个主要步骤：数据集准备：大模型的性能往往依赖于大量的训练数据。因此，数据集准备是模型开发的第一步。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
数据工程 - 盘古大模型 PanguLargeModels

数据工程 ModelArts Studio大模型开发平台提供了全面的数据工程功能，支持从数据源导入到数据质量控制的全流程管理。该模块涵盖数据获取、加工、标注、评估和发布等关键环节，帮助用户高效构建高质量的训练数据集，推动AI应用的成功落地。具体功能如下：数据获取：用户可以轻松将多种类型的数据导入ModelArts

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
数据工程使用流程 - 盘古大模型 PanguLargeModels

数据工程使用流程高质量数据是推动大模型不断迭代和优化的根基，它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据，才能提取出有价值的信息，从而更好地支持模型训练。因此，数据的采集、清洗、标注、评估、发布等环节，成为数据开发中不可或缺的重要步骤。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
打造政务智能问答助手 - 盘古大模型 PanguLargeModels

来源一：互联网开源数据集，如政府网站网页、政府在线问答公开数据、政务百科等。来源二：特定的私域数据，针对于具体场景和项目需求，收集相关的文本数据。比如通过与当地政府的政数局进行合作，获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于：在线网页、离线word文档、离线txt文

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
数据集发布场景介绍 - 盘古大模型 PanguLargeModels

数据集发布场景介绍数据发布概念数据发布是指将经过加工、标注、评估的数据集导出并生成符合特定任务或模型训练需求的正式数据集。数据发布是数据处理流程中的关键步骤，也是数据集构建的最终环节。数据发布过程不仅包括将数据转化为适合使用的格式，还要求根据任务需求对数据集的比例进行科学调

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 发布数据集

总条数： 29

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

视频类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

数据集格式要求 - 盘古大模型 PanguLargeModels

视频类加工算子能力清单 - 盘古大模型 PanguLargeModels

发布视频类数据集 - 盘古大模型 PanguLargeModels

发布图片类数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

发布文本类数据集 - 盘古大模型 PanguLargeModels

气象类加工算子能力清单 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

数据集加工场景介绍 - 盘古大模型 PanguLargeModels

基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

打造政务智能问答助手 - 盘古大模型 PanguLargeModels

数据集发布场景介绍 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线