搜索_华为云

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

无监督领域知识数据量无法支持增量预训练，如何进行模型学习一般来说，建议采用增量预训练的方式让模型学习领域知识，但预训练对数据量的要求较大，如果您的无监督文档量级过小，达不到预训练要求，您可以通过一些手段将其转换为有监督数据，再将转换后的领域知识与目标任务数据混合，使用微调的方式让模型学习。这里提供了一些将无

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
大模型开发基本概念 - 盘古大模型 PanguLargeModels

说明自监督学习自监督学习（Self-Supervised Learning，简称SSL）是一种机器学习方法，它从未标记的数据中提取监督信号，属于无监督学习的一个子集。该方法通过创建“预设任务”让模型从数据中学习，从而生成有用的表示，可用于后续任务。它无需额外的人工标签数据，因为监督信号直接从数据本身派生。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持气象类数据集的加工操作，气象类加工算子能力清单见表1。表1 气象类清洗算子能力清单

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
评估视频类数据集 - 盘古大模型 PanguLargeModels

创建视频类数据集评估标准 ModelArts Studio大模型开发平台针对视频类数据集预设了一套基础评估标准，涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度，用户可以直接使用该标准或在该标准的基础上创建评估标准。若您希望使用平台预置的评估标准，可跳过此章节至创建视频类数据集评估任务。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布视频类数据集
为什么其他大模型适用的提示词在盘古大模型上效果不佳 - 盘古大模型 PanguLargeModels

为什么其他大模型适用的提示词在盘古大模型上效果不佳提示词与训练数据的相似度关系。提示词的效果通常与训练数据的相似度密切相关。当提示词的内容与模型在训练过程中接触过的样本数据相似时，模型更容易理解提示词并生成相关的输出。这是因为模型通过学习大量的训练数据，逐渐建立起对特定模式、结构和语言

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 提示词工程类
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

PDF内容提取从PDF中提取内容转换为结构化数据。 JSON内容提取提取JSON文件中的键值对信息。 HTML内容提取基于标签路径提取HTML数据内容，并将其他与待提取标签路径无关的内容删除。电子书内容提取从电子书中提取出所有文本内容。智能文档解析从PDF（支持扫描版）或图片中提

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台提供了图文类、图片类清洗算子，算子能力清单见表1。表1 图片类清洗算子能力清单算子分类

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
评估图片类数据集 - 盘古大模型 PanguLargeModels

创建图片类数据集评估标准 ModelArts Studio大模型开发平台针对图片类数据集预设了一套基础评估标准，涵盖了图像清晰度、分辨率、标签准确性、图像一致性等多个质量维度，用户可以直接使用该标准或在该标准的基础上创建评估标准。若您希望使用平台预置的评估标准，可跳过此章节至创建图片类数据集评估任务。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布图片类数据集
视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

视频类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持视频类数据集的清洗操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
配比文本类数据集 - 盘古大模型 PanguLargeModels

按数据集”和“按标签”。按数据集：可以设置不同数据集的配比数量，单击“确定”。按标签：该场景适用于通过数据打标类清洗算子进行加工的文本类数据集，具体标签名称与标签值可在完成清洗文本类数据集操作后，进入数据集详情页面获取。填写示例如图1所示。图1 “按标签”配比方式填写示例

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布文本类数据集
标注视频类数据集 - 盘古大模型 PanguLargeModels

以包括视频中的场景、动作、事件或其他细节。这种方式不局限于预设的分类标签，能够灵活地记录视频中一些更复杂的内容。图3 文本描述示例-视频片段描述单击“下一步”，参考表1配置标注分配与审核。表1 标注分配与审核配置参数类型参数名称参数说明标注分配启用多人标注关闭时，默认管理员单人标注。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 加工视频类数据集
数据工程 - 盘古大模型 PanguLargeModels

据合成技术，可以生成大量高质量的训练数据，这些数据可以用于大模型的预训练，增强模型的泛化能力和性能。数据标注：平台支持对无标签的数据添加标签或对现有的标签进行重新标注，以提升数据集的标注质量。用户可以针对不同的数据集灵活地选择对应的标注项，还可以自定义选择多人标注、审核以及标注

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
CV大模型训练常见报错与解决方案 - 盘古大模型 PanguLargeModels

CV大模型训练常见报错与解决方案 CV大模型训练常见报错及解决方案请详见表1。表1 CV大模型训练常见报错与解决方案常见报错问题现象原因分析解决方案创建训练任务时，数据集列表为空。创建训练任务时，数据集选择框中显示为空，无可用的训练数据集。数据集未发布。请提前创建与大模型对应的训练数据集，并完成数据集发布操作。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型 > 训练CV大模型
创建CV大模型训练任务 - 盘古大模型 PanguLargeModels

用于判定模型预测的边界框与真实边界框之间是否为同一物体。该阈值用于计算IoU（交并比），影响模型的精确度。热身轮次表示在模型训练初期，逐步增加学习率到预设值的训练轮次，用于帮助模型在训练初期稳定收敛，避免大幅度的参数更新导致不稳定的学习过程。热身阶段学习率热身轮次中使用的初始学习率。优化器

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型 > 训练CV大模型
预测大模型训练常见报错与解决方案 - 盘古大模型 PanguLargeModels

预测大模型训练常见报错与解决方案预测大模型训练常见报错及解决方案请详见表1。表1 预测大模型训练常见报错与解决方案常见报错问题现象原因分析解决方案创建训练任务时，数据集列表为空。创建训练任务时，数据集选择框中显示为空，无可用的训练数据集。数据集未发布。请提前创建与大模型对应的训练数据集，并完成数据集发布操作。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古预测大模型 > 训练预测大模型
NLP大模型训练常见报错与解决方案 - 盘古大模型 PanguLargeModels

NLP大模型训练常见报错与解决方案 NLP大模型训练常见报错及解决方案请详见表1。表1 NLP大模型训练常见报错与解决方案常见报错问题现象原因分析解决方案创建训练任务时，数据集列表为空。创建训练任务时，数据集选择框中显示为空，无可用的训练数据集。数据集未发布。请提前创建与大模型对应的训练数据集，并完成数据集发布操作。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
产品优势 - 盘古大模型 PanguLargeModels

为模型提供了深度和广度的语言学习基础，使其能够生成更加自然、准确且符合语境的文本。通过对海量数据的深入学习和分析，盘古大模型能够捕捉语言中的细微差别和复杂模式，无论是在词汇使用、语法结构，还是语义理解上，都能达到令人满意的精度。此外，模型具备自我学习和不断进化的能力，随着新数据

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍
图片类数据集格式要求 - 盘古大模型 PanguLargeModels

1.jpg 1.txt 2.jpg 2.txt 单标签的标签文件示例，如1.txt文件内容如下所示。猫多标签的标签文件示例，如2.txt文件内容如下所示。猫狗异常检测数据集标注文件说明该说明适用于表1中的异常检测标注文件格式。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
创建提示词工程 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，进入所需空间。在左侧导航栏中选择“Agent 开发 > 提示词工程 > 提示词开发”，单击界面右上角“创建工程”。输入工程名称、描述，选择行业、标签后。单击“确定”完成工程创建。图1 创建提示词工程父主题：撰写提示词

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型提示词工程 > 撰写提示词
数据工程使用流程 - 盘古大模型 PanguLargeModels

利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。标注数据集为无标签数据集添加准确的标签，确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集

总条数： 58

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

大模型开发基本概念 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

评估视频类数据集 - 盘古大模型 PanguLargeModels

为什么其他大模型适用的提示词在盘古大模型上效果不佳 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

评估图片类数据集 - 盘古大模型 PanguLargeModels

视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

配比文本类数据集 - 盘古大模型 PanguLargeModels

标注视频类数据集 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

CV大模型训练常见报错与解决方案 - 盘古大模型 PanguLargeModels

创建CV大模型训练任务 - 盘古大模型 PanguLargeModels

预测大模型训练常见报错与解决方案 - 盘古大模型 PanguLargeModels

NLP大模型训练常见报错与解决方案 - 盘古大模型 PanguLargeModels

产品优势 - 盘古大模型 PanguLargeModels

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

创建提示词工程 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线