搜索_华为云

视频类数据集格式要求 - 盘古大模型 PanguLargeModels

种形式的数据，具体格式要求详见表1。表1 视频类数据集格式要求文件内容文件格式文件要求视频 mp4或avi 支持mp4、avi视频格式上传，所有视频可以放在多个文件夹下，每个文件夹下可以同时包含mp4或avi格式的视频。单个文件大小不超过50GB，文件数量最多1000个。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
文本类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类数据集格式要求文件内容文件格式文件要求文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB，文件数量最多1000个。网页 html 单个文件大小不超过50GB，文件数量最多1000个。预训练文本 jsonl jsonl格式：text表示预训练所使用的文本数据，具体格式示例如下：

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

数据转换图文异常字符过滤将文本数据中携带的异常字符替换为空值，数据条目不变。不可见字符，例如U+0000-U+001F 表情符六网页标签符号<p> 特殊符号，比如● █ ◆ 乱码和无意义的字符�� 父主题：数据集清洗算子介绍

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
流通视频类数据集 - 盘古大模型 PanguLargeModels

流通视频类数据集数据流通是将单个数据集发布为特定格式的“发布数据集”的过程，用于后续模型训练等操作。视频类数据集当前仅支持发布为“默认格式”。创建视频类数据集流通任务创建视频类数据集流通任务步骤如下：登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布视频类数据集
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

基于标签路径提取HTML数据内容，并将其他与待提取标签路径无关的内容删除。电子书内容提取从电子书中提取出所有文本内容。智能文档解析从PDF（支持扫描版）或图片中提取文本，转化为结构化数据，持文本、表格、表单、公式等内容提取。数据转换个人数据脱敏对文本中的手机号码、身份证件、邮箱地址、

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

其他类数据集格式要求除文本、图片、视频、气象、预测类数据集外，平台还支持导入其他类数据集，即用户训练模型时使用的自定义数据集。其他类数据集支持发布其他类数据集操作，不支持数据加工操作。其他类数据集要求单个文件大小不超过50GB，单个压缩包大小不超过50GB，文件数量最多1000个。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

视频类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持视频类数据集的清洗操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
数据工程介绍 - 盘古大模型 PanguLargeModels

据集格式要求。表1 平台支持的数据类型数据类型数据内容支持的文件格式文本类文档 txt、mobi、epub、docx、pdf 网页 html 预训练文本 jsonl 单轮问答 jsonl、csv 单轮问答（人设） jsonl、csv 多轮问答 jsonl 多轮问答（人设）

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
数据集格式要求 - 盘古大模型 PanguLargeModels

数据集格式要求文本类数据集格式要求图片类数据集格式要求视频类数据集格式要求气象类数据集格式要求预测类数据集格式要求其他类数据集格式要求父主题：使用数据工程构建数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
导入数据至盘古平台 - 盘古大模型 PanguLargeModels

是否正确。可以在“创建导入任务”页面下载数据样例进行比对。使用Python脚本转换自定义格式为jsonl格式对于文本类数据集，除文档、网页数据类型，其余类型的数据支持将自定义格式转换为jsonl格式。用户可以上传自定义的python脚本实现数据集由自定义格式到jsonl格式

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型盘古CV大模型支持接入图片类、视频类、其他类数据集，，不同模型所需数据见表1，数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。表1 训练CV大模型数据集类型要求基模型训练场景

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型
气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持气象类数据集的加工操作，气象类加工算子能力清单见表1。表1 气象类清洗算子能力清单

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
知识库介绍 - 盘古大模型 PanguLargeModels

知识库介绍平台提供了知识库功能来管理和存储数据，支持为应用提供自定义数据，并与之进行互动。知识库支持导入以下格式的本地文档：文本文档数据。支持上传常见文本格式，包括：txt、doc、docx、pdf、ppt、pptx格式。表格数据。支持上传常见的表格文件格式，便于管理和分

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
常见问题 - 盘古大模型 PanguLargeModels

常见问题使用java sdk出现第三方库冲突当出现第三方库冲突的时，如Jackson，okhttp3版本冲突等。可以引入如下bundle包(3.0.40-rc版本后)，该包包含所有支持的服务和重定向了SDK依赖的第三方软件，避免和业务自身依赖的库产生冲突： <dependency>

帮助中心 > 盘古大模型 PanguLargeModels > SDK参考
数据工程 - 盘古大模型 PanguLargeModels

数据工程 ModelArts Studio开发平台提供了全面的数据工程功能。该模块涵盖数据获取、加工、标注、评估和发布等关键环节，帮助用户高效构建高质量的训练数据集，推动AI应用的成功落地。具体功能如下：数据获取：用户可以轻松将多种类型的数据导入ModelArts Studio

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍大模型（Large Models）通常指的是具有海量参数和复杂结构的深度学习模型，广泛应用于自然语言处理（NLP）等领域。开发一个大模型的流程可以分为以下几个主要步骤：数据集准备：大模型的性能往往依赖于大量的训练数据。因此，数据集准备是模型开发的第一步。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

基于NL2JSON助力金融精细化运营场景介绍在金融场景中，客户日常业务依赖大量报表数据来支持精细化运营，但手工定制开发往往耗费大量人力。因此，希望借助大模型消除语义歧义性，识别用户查询意图，并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
打造政务智能问答助手 - 盘古大模型 PanguLargeModels

来源一：互联网开源数据集，如政府网站网页、政府在线问答公开数据、政务百科等。来源二：特定的私域数据，针对于具体场景和项目需求，收集相关的文本数据。比如通过与当地政府的政数局进行合作，获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于：在线网页、离线word文档、离线txt文

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
数据集发布场景介绍 - 盘古大模型 PanguLargeModels

数据集发布场景介绍数据发布介绍 ModelArts Studio大模型开发平台提供的数据发布功能涵盖数据评估、数据配比和数据流通操作，旨在通过数据质量评估和合理的比例组合，确保数据满足大模型训练的多样性、平衡性和代表性需求，促进数据的高效流通和应用。数据发布不仅包括将数据发布

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
Agent开发常见报错与解决方案 - 盘古大模型 PanguLargeModels

Agent开发常见报错与解决方案工作流常见错误码与解决方案工作流常见报错及解决方案请详见表1。表1 工作流节点常见报错与解决方案模块名称错误码错误描述解决方案开始节点 101501 开始节点全局配置未传入值。开始节点错误，请联系客服解决。结束节点 101531

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用

总条数： 37

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

视频类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

流通视频类数据集 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

数据集格式要求 - 盘古大模型 PanguLargeModels

导入数据至盘古平台 - 盘古大模型 PanguLargeModels

使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

知识库介绍 - 盘古大模型 PanguLargeModels

常见问题 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

打造政务智能问答助手 - 盘古大模型 PanguLargeModels

数据集发布场景介绍 - 盘古大模型 PanguLargeModels

Agent开发常见报错与解决方案 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线