搜索_华为云

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

无监督领域知识数据量无法支持增量预训练，如何进行模型学习一般来说，建议采用增量预训练的方式让模型学习领域知识，但预训练对数据量的要求较大，如果您的无监督文档量级过小，达不到预训练要求，您可以通过一些手段将其转换为有监督数据，再将转换后的领域知识与目标任务数据混合，使用微调的方式让模型学习。这里提供了一

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类
标注图片类数据集 - 盘古大模型 PanguLargeModels

标注图片类数据集创建图片类数据集标注任务标注图片类数据集任务前，请先完成数据导入操作，具体步骤请参见导入数据至盘古平台。数据标注功能支持创建标注任务、标注数据集（标注作业）、审核标注后的数据集（审核作业）与管理标注任务（任务管理）。其中，不同角色权限支持的功能及展示的前端界面略有差异，详见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
加工图片类数据集 - 盘古大模型 PanguLargeModels

加工图片类数据集加工图片类数据集任务前，请先完成数据导入操作，具体步骤请参见导入数据至盘古平台。创建图片类数据集加工任务创建图片类数据集加工任务步骤如下：登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“数据工程

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
图片类加工算子介绍 - 盘古大模型 PanguLargeModels

留语种”之外的图文对数据将被过滤。图文去重基于结构化图片去重判断相同文本对应不同的图片数据是否超过阈值，如果超过则去重。图片去重通过把图片结构化处理后，过滤重复的图片/图文对数据。数据打标图片鉴黄评分对图片的涉黄程度进行评分，分数越高越危险。默认评分不小于50分的视频可视为涉黄视频。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
发布图片类数据集 - 盘古大模型 PanguLargeModels

发布图片类数据集数据发布是将数据集发布为特定格式的“发布数据集”的过程，用于后续模型训练等操作。图片类数据集支持发布的格式为：标准格式：如图1，平台默认的格式。该格式的数据集可发布到资产中，但下游模型开发不可见。图1 图片类数据集标准格式示例盘古格式：如图2，训练盘古大

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布图片类数据集
加工图片类数据集 - 盘古大模型 PanguLargeModels

加工图片类数据集加工图片类数据集标注图片类数据集配比图片类数据集父主题：加工数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
配比图片类数据集 - 盘古大模型 PanguLargeModels

配比图片类数据集数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程，确保数据的多样性、平衡性和代表性。如果单个数据集已满足您的需求，可跳过此章节至发布图片类数据集。创建图片类数据集配比任务创建图片类数据集配比任务步骤如下：登录ModelArts St

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工图片类数据集
评估图片类数据集 - 盘古大模型 PanguLargeModels

评估图片类数据集发布图片类数据集前，ModelArts Studio大模型开发平台支持对数据集进行评估操作，帮助用户优化数据质量，确保数据满足高标准，提升模型性能。如果无需使用数据评估操作，可跳过此章节至发布图片类数据集。创建图片类数据集评估标准 ModelArts Stu

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布图片类数据集
发布图片类数据集 - 盘古大模型 PanguLargeModels

发布图片类数据集评估图片类数据集发布图片类数据集父主题：发布数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集
图片类数据集格式要求 - 盘古大模型 PanguLargeModels

其中，before文件夹：包含变化前的图片，每幅图片需与变化后的图片同名、同尺寸。 after文件夹：包含变化后的图片，每幅图片需与变化前的图片同名、同尺寸。 label文件夹：包含与变化前和变化后图片同名、同尺寸的PNG文件。每个像素值代表该位置对应的类别信息，类别应是连续的且从0开始。视频分类图片导入

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
文本类加工算子介绍 - 盘古大模型 PanguLargeModels

文本类加工算子介绍数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持文本类数据集的加工操作，分为数据提取、数据转换、数据过滤、数据打标四类，文本类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
视频类加工算子介绍 - 盘古大模型 PanguLargeModels

视频类加工算子介绍数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持视频类数据集的加工操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
创建插件 - 盘古大模型 PanguLargeModels

Agent开发平台。单击左侧导航栏“工作台”，在“插件”页签，单击右上角“创建插件”。在“创建插件”页面，填写插件名称与插件描述，单击图片可上传插件图标，单击“下一步”。在“配置信息”页面，参照表1完成信息配置。表1 插件信息配置说明参数名称参数说明插件URL 插件服务的请求URL地址。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理插件
创建知识库 - 盘古大模型 PanguLargeModels

ent开发平台。单击左侧导航栏“工作台”，在“知识库”页签，单击右上角“创建知识库”。在“创建知识库”页面，填写知识库名称与描述，单击图片可上传知识库图标，单击“下一步”。在“文件类型”页面，选择文件类型。导入文本文档数据。支持上传txt、doc、docx、pdf、ppt

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
创建科学计算大模型训练任务 - 盘古大模型 PanguLargeModels

取值需≥0。学习率学习率决定每次训练中模型参数更新的幅度。选择合适的学习率至关重要：如果学习率过大，模型可能无法收敛。如果学习率过小，模型的收敛速度将变得非常慢。学习率调整策略用于选择学习率调度器的类型。学习率调度器可以在训练过程中动态地调整学习率，以改善模型的训

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 训练科学计算大模型
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍大模型（Large Models）通常指的是具有海量参数和复杂结构的深度学习模型，广泛应用于自然语言处理（NLP）等领域。开发一个大模型的流程可以分为以下几个主要步骤：数据集准备：大模型的性能往往依赖于大量的训练数据。因此，数据集准备是模型开发的第一步。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

其他类数据集格式要求除文本、图片、视频、气象、预测类数据集外，平台还支持导入其他类数据集，即用户训练模型时使用的自定义数据集。其他类数据集支持发布其他类数据集操作。其他类数据集要求单个文件大小不超过50GB，单个压缩包大小不超过50GB，文件数量最多1000个。父主题：数据集格式要求

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
数据工程 - 盘古大模型 PanguLargeModels

增强模型的泛化能力和性能。数据标注：平台支持对无标签的数据添加标签或对现有的标签进行重新标注，以提升数据集的标注质量。用户可以针对不同的数据集灵活地选择对应的标注项，还可以自定义选择多人标注、审核以及标注任务移交。针对文本和图片类数据集，平台还提供AI预标注功能。利用盘古大模型

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
数据工程介绍 - 盘古大模型 PanguLargeModels

jsonl 图片类仅图片 jpg、jpeg、png、bmp、tar包图片+Caption 图片格式支持：jpg、jpeg、png、bmp，所有图片需保存为tar包。 Caption格式支持：jsonl 图片+QA对图片格式支持：jpg、jpeg、png、bmp，所有图片需保存为tar包。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
数据工程使用流程 - 盘古大模型 PanguLargeModels

利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。标注数据集为无标签数据集添加准确的标签，确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集

总条数： 115

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

标注图片类数据集 - 盘古大模型 PanguLargeModels

加工图片类数据集 - 盘古大模型 PanguLargeModels

图片类加工算子介绍 - 盘古大模型 PanguLargeModels

发布图片类数据集 - 盘古大模型 PanguLargeModels

加工图片类数据集 - 盘古大模型 PanguLargeModels

配比图片类数据集 - 盘古大模型 PanguLargeModels

评估图片类数据集 - 盘古大模型 PanguLargeModels

发布图片类数据集 - 盘古大模型 PanguLargeModels

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

文本类加工算子介绍 - 盘古大模型 PanguLargeModels

视频类加工算子介绍 - 盘古大模型 PanguLargeModels

创建插件 - 盘古大模型 PanguLargeModels

创建知识库 - 盘古大模型 PanguLargeModels

创建科学计算大模型训练任务 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线