搜索_华为云

加工图片类数据集 - 盘古大模型 PanguLargeModels

加工图片类数据集清洗图片类数据集标注图片类数据集父主题：加工数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
配比图片类数据集 - 盘古大模型 PanguLargeModels

配比图片类数据集数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程，确保数据的多样性、平衡性和代表性。如果单个数据集已满足您的需求，可跳过此章节至流通图片类数据集。创建图片类数据集配比任务创建图片类数据集配比任务步骤如下：登录ModelArts St

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布图片类数据集
标注图片类数据集 - 盘古大模型 PanguLargeModels

标注图片类数据集创建图片类数据集标注任务标注图片类数据集任务前，请先完成数据导入操作，具体步骤请参见导入数据至盘古平台。创建图片类数据集标注任务步骤如下：登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
清洗图片类数据集 - 盘古大模型 PanguLargeModels

清洗图片类数据集清洗图片类数据集任务前，请先完成数据导入操作，具体步骤请参见导入数据至盘古平台。创建图片类数据集清洗任务创建图片类数据集清洗任务步骤如下：登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
流通图片类数据集 - 盘古大模型 PanguLargeModels

流通图片类数据集数据流通是将单个数据集发布为特定格式的“发布数据集”的过程，用于后续模型训练等操作。单个图片类数据集支持发布的格式为：默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要将数据集格式发布为“盘古格式”。创建文本类数据集流通任务步骤如下：登录ModelArts

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布图片类数据集
评估图片类数据集 - 盘古大模型 PanguLargeModels

评估标准创建完成后可以在“人工评估标准”页面查看创建的评估标准，并支持编辑与删除操作。创建图片类数据集评估任务平台仅支持对“加工数据集”执行评估操作。创建图片类数据集评估任务前，请参考加工图片类数据集，生成一个“加工数据集”。创建图片类数据集评估任务步骤如下：登录ModelArts Studio大

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布图片类数据集
图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

算子描述数据提取图文提取提取图文压缩包中的JSON文本和图片，并对图片进行结构化解析（BASE64编码）。数据过滤图片元数据过滤基于图片存储大小、宽高比属性进行图片/图文数据清洗。图文文本长度过滤过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母，文本长度均计数为1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
图片类数据集格式要求 - 盘古大模型 PanguLargeModels

"caption":"图片对应的文本描述"} 单个tar包大小不超过500MB，文件总大小不超过100GB。图片+QA对图片支持tar，QA对支持jsonl 图片：图片以tar包格式存储，可以多个tar包。tar包存储原始的图片，每张图片命名要求唯一（如abc.jpg）。图片支持jpg、jpeg、png、bmp格式。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
发布图片类数据集 - 盘古大模型 PanguLargeModels

发布图片类数据集评估图片类数据集配比图片类数据集流通图片类数据集父主题：发布数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

精度。标注图片类数据集、标注视频类数据集发布图片、视频类数据集评估图片、视频类数据集平台预置了多种数据类型的基础评估标准，包括NLP、视频和图片数据，用户可根据需求选择预置标准或自定义评估标准，从而精确优化数据质量，确保数据满足高标准，提升模型性能。评估图片类数据集、评估视频类数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

JSON格式数据。 PDF内容提取从PDF中提取内容转换为结构化数据。 JSON内容提取提取JSON文件中的键值对信息。 HTML内容提取基于标签路径提取HTML数据内容，并将其他与待提取标签路径无关的内容删除。电子书内容提取从电子书中提取出所有文本内容。智能文档解析

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
创建插件 - 盘古大模型 PanguLargeModels

Agent开发平台。单击左侧导航栏“工作台”，在“插件”页签，单击右上角“创建插件”。在“创建插件”页面，填写插件名称与插件描述，单击图片可上传插件图标，单击“下一步”。在“配置信息”页面，参照表1完成信息配置。表1 插件信息配置说明参数名称参数说明插件URL 插件服务的请求URL地址。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理插件
数据工程 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入，确保不同业务场景下的数据获取需求得到满足。数据清洗：平台提供强大的数据清洗功能，可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转换、打标签

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

其他类数据集格式要求除文本、图片、视频、气象、预测类数据集外，平台还支持导入其他类数据集，即用户训练模型时使用的自定义数据集。其他类数据集支持发布其他类数据集操作，不支持数据加工操作。父主题：数据集格式要求

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

Logo识别识别视频中是否包含Logo。视频黑边识别识别视频中是否包含黑边。密集文字识别识别视频中是否包含密集文字，达到密集文字面积占比的视频则为含密集文字视频，一般裁剪面积占比≥7%为密集文字视频。父主题：数据集清洗算子介绍

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
成长地图 - 盘古大模型 PanguLargeModels

效果不佳？更多技术专题技术、观点、课程专题呈现云图说通过云图说，带您了解华为云 OCR基础课程介绍文字识别服务的产品、技术指导和使用指南 OCR系列介绍文字识别服务在计算机视觉的重要性、基本技术和最新进展智能客服您好！我是有问必答知识渊博的的智能问答机器人，有问题欢迎随时求助哦！

帮助中心 > 盘古大模型 PanguLargeModels > 成长地图
数据工程介绍 - 盘古大模型 PanguLargeModels

jsonl、csv 图片类仅图片 jpg、jpeg、png、bmp、tar包图片+Caption 图片格式支持：jpg、jpeg、png、bmp，所有图片需保存为tar包。 Caption格式支持：jsonl 图片+QA对图片格式支持：jpg、jpeg、png、bmp，所有图片需保存为tar包。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
创建知识库 - 盘古大模型 PanguLargeModels

ent开发平台。单击左侧导航栏“工作台”，在“知识库”页签，单击右上角“创建知识库”。在“创建知识库”页面，填写知识库名称与描述，单击图片可上传知识库图标，单击“下一步”。在“文件类型”页面，选择文件类型。导入文本文档数据。支持上传txt、doc、docx、pdf、ppt

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
数据工程使用流程 - 盘古大模型 PanguLargeModels

高质量数据是推动大模型不断迭代和优化的根基，它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据，才能提取出有价值的信息，从而更好地支持模型训练。因此，数据的采集、清洗、标注、评估、发布等环节，成为数据开发中不可或缺的重要步骤。数据工程操作流程见图1、表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
数据集发布场景介绍 - 盘古大模型 PanguLargeModels

数据类型数据评估数据配比数据流通文本类 √ √ √ 图片类 √ √ √ 视频类 √ - √ 气象类 - - √ 预测类 - - √ 其他类 - - √ ModelArts Studio大模型开发平台支持将文本类、图片类数据集发布为两种格式：默认格式：适用于广泛的数据使用场景，满足大多数模型训练的标准需求。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集

总条数： 130

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

加工图片类数据集 - 盘古大模型 PanguLargeModels

配比图片类数据集 - 盘古大模型 PanguLargeModels

标注图片类数据集 - 盘古大模型 PanguLargeModels

清洗图片类数据集 - 盘古大模型 PanguLargeModels

流通图片类数据集 - 盘古大模型 PanguLargeModels

评估图片类数据集 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

发布图片类数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

创建插件 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

成长地图 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

创建知识库 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

数据集发布场景介绍 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线