搜索_华为云

文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

格式数据。 PDF内容提取从PDF中提取内容转换为结构化数据。 JSON内容提取从JSON文件（键值对类型文件）中提取出内容。 HTML内容提取基于标签路径提取HTML数据内容，并将其他与待提取标签路径无关的内容删除。电子书内容提取从电子书中提取出所有文本内容。智能文档解析

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
视频类加工算子能力清单 - 盘古大模型 PanguLargeModels

视频类加工算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持视频类数据集的加工操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
气象类加工算子能力清单 - 盘古大模型 PanguLargeModels

气象类加工算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持气象类数据集的加工操作，气象类加工算子能力清单见表1。表1 气象类加工算子能力清单

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

表1 图文类加工算子能力清单算子分类算子名称算子描述数据提取图文提取提取图文压缩包中的JSON文本和图片，并对图片进行结构化解析（BASE64编码）。数据过滤图文文本长度过滤过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母，文本长度均计数为1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

的第一个句子：xxx/第一段落：xxx。请根据以上的句子/段落，续写为一段不少于xx个字的文本。”，再将回答设置为符合要求的段落。扩写：根据段落的其中一句或者一段续写成完整的段落。若您的无监督文档没有任何结构化信息，可以将有监督的问题设置为“以下是一篇文章的某个句子：xxx/

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
查看NLP大模型训练状态与指标 - 盘古大模型 PanguLargeModels

型性能越好。指标看板 bleu-1：模型生成句子与实际句子在单字层面的匹配度，数值越高，表明模型性能越好。 bleu-2：模型生成句子与实际句子在词组层面的匹配度，数值越高，表明模型性能越好。 bleu-3：模型生成结果和实际句子的加权平均精确率，数值越高，表明模型性能越好。获取训练日志

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
盘古科学计算大模型能力与规格 - 盘古大模型 PanguLargeModels

盘古科学计算大模型能力与规格盘古科学计算大模型面向气象、医药、水务、机械、航天航空等领域，融合了AI数据建模和AI方程求解方法。该模型从海量数据中提取数理规律，利用神经网络编码微分方程，通过 AI 模型更快速、更精准地解决科学计算问题。 ModelArts Studio大模型开发平台为用

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 模型能力与规格
数据工程使用流程 - 盘古大模型 PanguLargeModels

高质量数据是推动大模型不断迭代和优化的根基，它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据，才能提取出有价值的信息，从而更好地支持模型训练。因此，数据的采集、清洗、标注、评估、发布等环节，成为数据开发中不可或缺的重要步骤。在ModelArts

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍大模型（Large Models）通常指的是具有海量参数和复杂结构的深度学习模型，广泛应用于自然语言处理（NLP）等领域。开发一个大模型的流程可以分为以下几个主要步骤：数据集准备：大模型的性能往往依赖于大量的训练数据。因此，数据集准备是模型开发的第一步。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
使用盘古加工算子构建单轮问答数据集 - 盘古大模型 PanguLargeModels

此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具，能够帮助您将原始数据转化为所需的格式。通过使用加工算子，您可以提取、转换、过滤原始数据，生成适合大模型训练的数据集。准备工作请提前准备数据并上传至OBS服务，上传步骤请详见通过控制台快速使用OBS。操作流程

 帮助中心 > 盘古大模型 PanguLargeModels > 快速入门
如何对盘古大模型的安全性展开评估和防护 - 盘古大模型 PanguLargeModels

盘古大模型的安全性主要从以下方面考虑：数据安全和隐私保护：大模型涉及大量训练数据，这些数据是重要资产。为确保数据安全，需在数据和模型训练的全生命周期内，包括数据提取、加工、传输、训练、推理和删除的各个环节，提供防篡改、数据隐私保护、加密、审计和数据主权保护等机制。在训练和推理过程中，通过数据脱敏、隐私

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型概念类问题
数据集加工场景介绍 - 盘古大模型 PanguLargeModels

数据集加工场景介绍数据加工概念数据加工是数据工程中的核心环节，旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作，以确保数据符合模型训练的标准和业务需求。通过这一过程，用户能够优化数据质量，去除噪声和冗余信息，提升数据的准确性和一致性，为后续的模型训练提供

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集
大模型开发基本概念 - 盘古大模型 PanguLargeModels

概念名说明自监督学习自监督学习（Self-Supervised Learning，简称SSL）是一种机器学习方法，它从未标记的数据中提取监督信号，属于无监督学习的一个子集。该方法通过创建“预设任务”让模型从数据中学习，从而生成有用的表示，可用于后续任务。它无需额外的人工标签数据，因为监督信号直接从数据本身派生。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
提示词写作常用方法论 - 盘古大模型 PanguLargeModels

与前文要求中的key名字保持一致，否则模型会不理解是同一个key。恰当的表述可以尝试从英语的逻辑去设计提示词。最好是主谓宾结构完整的句子，少用缩写和特殊句式。应使用常见的词汇和语言表达方式，避免使用生僻单词和复杂的句式，防止机器理解偏差。多用肯定句，少用否定句，比如“你不能A

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 提示词写作实践
什么是提示词工程 - 盘古大模型 PanguLargeModels

或示例等。您可以通过这些元素来更好地指导模型，并因此获得更好的结果。提示词主要包含以下要素：指令：希望模型执行的特定任务或指令，如总结、提取、生成等。上下文：包含外部信息或额外的上下文信息，引导语言模型更好地响应。输入数据：用户输入的内容或问题。输出指示：指定输出的类型或格式。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型提示词工程
创建盘古多语言文本翻译工作流 - 盘古大模型 PanguLargeModels

组件，单击该组件进行配置操作。提问器组件参数配置见图9。其中，请将“高级配置 > Prompt提示词”中的内容替换为：请你从目标数据中提取翻译相关参数，参数包括origintext（待翻译文本），from（原始语言），to（翻译目标语言）。目标数据未提供或者有歧义（如存在多个

 帮助中心 > 盘古大模型 PanguLargeModels > 快速入门
科学计算大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

科学计算大模型训练流程与选择建议科学计算大模型训练流程介绍科学计算大模型主要用于。科学计算大模型的训练主要分为两个阶段：预训练与微调。预训练阶段：预训练是模型学习基础知识的过程，基于大规模通用数据集进行。例如，在区域海洋要素预测中，可以重新定义深海变量、海表变量，调整深度

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 训练科学计算大模型
创建工作流 - 盘古大模型 PanguLargeModels

选填，不填写可能影响模型提取效果。当“问题配置”的“问题”信息与“高级配置”中“问题额外配置”的“问题关键词”都填写时，提问器组件会校验问题中是否已经包含所有的问题关键词。内容示例：内容示例可以举例说明所需信息的格式，帮助大模型更好地从用户的回答中提取所需信息。例如，参数名称“

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理工作流
打造政务智能问答助手 - 盘古大模型 PanguLargeModels

时能够利用到历史问答信息。该模块具备检索问答能力，针对输入的query和此query调用检索模块所得的检索文档，进行开卷问答（阅读理解），提取检索文档中的有效信息，完成问题的回答。除了上述提到的四个模块以外，还需要一个编排流程的pipeline，将这些模块提供的API接口进行编

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
数据量和质量均满足要求，为什么盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

数据量和质量均满足要求，为什么盘古大模型微调效果不好这种情况可能是由于以下原因导致的，建议您排查：训练参数设置：您可以通过绘制Loss曲线查询来确认模型的训练过程是否出现了问题，这种情况大概率是由于训练参数设置的不合理而导致了欠拟合或过拟合。请检查训练参数中的 “训练轮次”或

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题

总条数： 46

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

视频类加工算子能力清单 - 盘古大模型 PanguLargeModels

气象类加工算子能力清单 - 盘古大模型 PanguLargeModels

图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

查看NLP大模型训练状态与指标 - 盘古大模型 PanguLargeModels

盘古科学计算大模型能力与规格 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

使用盘古加工算子构建单轮问答数据集 - 盘古大模型 PanguLargeModels

如何对盘古大模型的安全性展开评估和防护 - 盘古大模型 PanguLargeModels

数据集加工场景介绍 - 盘古大模型 PanguLargeModels

大模型开发基本概念 - 盘古大模型 PanguLargeModels

提示词写作常用方法论 - 盘古大模型 PanguLargeModels

什么是提示词工程 - 盘古大模型 PanguLargeModels

创建盘古多语言文本翻译工作流 - 盘古大模型 PanguLargeModels

科学计算大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

创建工作流 - 盘古大模型 PanguLargeModels

打造政务智能问答助手 - 盘古大模型 PanguLargeModels

数据量和质量均满足要求，为什么盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线