搜索_华为云

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

构建的优点是数据丰富度更高，缺点是成本较高。当您将无监督数据构建为有监督数据时，请尽可能保证数据的多样性。建议将不同文本构建为不同的场景，甚至将同一段文本构建为多个不同的场景。不同规格的模型支持的长度不同，当您将无监督数据构建为有监督数据时，请确保数据长度符合模型长度限制。父主题：

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

任务，可能需要大量的文本数据；如果是计算机视觉任务，则需要图像或视频数据。数据预处理：数据预处理是数据准备过程中的重要环节，旨在提高数据质量和适应模型的需求。常见的数据预处理操作包括：去除重复数据：确保数据集中每条数据的唯一性。填补缺失值：填充数据中的缺失部分，常用方法包括均值填充、中位数填充或删除缺失数据。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
为什么其他大模型适用的提示词在盘古大模型上效果不佳 - 盘古大模型 PanguLargeModels

为什么其他大模型适用的提示词在盘古大模型上效果不佳提示词与训练数据的相似度关系。提示词的效果通常与训练数据的相似度密切相关。当提示词的内容与模型在训练过程中接触过的样本数据相似时，模型更容易理解提示词并生成相关的输出。这是因为模型通过学习大量的训练数据，逐渐建立起对特定模式、结构和语言的理解，因

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 提示词工程类
科学计算大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

微调。预训练阶段：预训练是模型学习基础知识的过程，基于大规模通用数据集进行。例如，在区域海洋要素预测中，可以重新定义深海变量、海表变量，调整深度层、时间分辨率、水平分辨率以及区域范围，以适配自定义区域的模型场景。此阶段需预先准备区域的高精度数据。微调阶段：在预训练模型的基础上

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 训练科学计算大模型
气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持气象类数据集的加工操作，气象类加工算子能力清单见表1。表1 气象类清洗算子能力清单

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型盘古CV大模型支持接入图片类、视频类、其他类数据集，，不同模型所需数据见表1，数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。表1 训练CV大模型数据集类型要求基模型训练场景

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古CV大模型
数据量和质量均满足要求，为什么盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

“训练轮次”或“学习率”等参数的设置，根据实际情况调整训练参数，帮助模型更好学习。 Prompt设置：请检查您使用的Prompt，对于同一个目标任务，建议在推理阶段使用和训练数据相同或相似的PROMPT，才能发挥出模型的最佳效果。模型规格：理论上模型的参数规模越大，模型能学到的知识就越多，能

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
数据集加工场景介绍 - 盘古大模型 PanguLargeModels

数据集加工场景介绍数据加工介绍 ModelArts Studio大模型开发平台提供数据加工功能，涵盖了数据清洗、数据合成和数据标注关键操作，旨在确保原始数据符合业务需求和模型训练的标准，是数据工程中的核心环节。数据清洗通过专用的清洗算子对数据进行预处理，确保数据符合模型训练

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集
使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集科学计算大模型支持接入的数据集类型盘古科学计算大模型仅支持接入气象类数据集，该数据集格式要求请参见气象类数据集格式要求。训练科学计算大模型训练数据要求所需数据量构建科学计算大模型进行训练的数据要求见表1。表1 科学计算大模型训练数据要求

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型
数据工程 - 盘古大模型 PanguLargeModels

靠性和稳定性。数据配比：平台支持对文本、图片类数据进行数据配比。用户在勾选数据集时可以勾选多条，通过调整不同来源或类型数据的比例，以优化模型训练过程。通过数据配比可以确保模型能够更全面地学习和理解数据的多样性，提高模型的泛化能力和性能。数据流通：平台支持数据集配比、拆分发布。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
数据工程介绍 - 盘古大模型 PanguLargeModels

通过这些功能，用户可以轻松将大量数据导入平台，为后续的数据加工和模型训练等操作做好准备。数据加工：平台提供了数据清洗、数据合成、数据标注的加工操作，旨在确保原始数据能够满足各种业务需求和模型训练的标准。数据清洗：数据清洗旨在通过使用数据集清洗算子对数据进行预处理操作，针对不同类型的数据集，平台设计

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
创建科学计算大模型训练任务 - 盘古大模型 PanguLargeModels

进行选择。数据配置训练数据选择数据集中已发布的数据集，这里数据集需为再分析类型数据，同时需要完成加工作业，加工时需选择气象预处理算子。训练集选择训练数据中的部分时间数据，训练数据集尽可能多一些。验证集选择验证集中的部分时间数据，验证集数据不能跟训练集数据重合。层次

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 训练科学计算大模型
图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台提供了图文类、图片类清洗算子，算子能力清单见表1。表1 图片类清洗算子能力清单算子分类

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

jsonl 训练NLP大模型所需数据量使用数据工程构建盘古NLP大模型数据集进行模型训练时，所需数据量见表2。表2 构建NLP大模型所需数据量模型规格训练类型推荐数据量最小数据量（数据条数）单场景推荐训练数据量单条数据Token长度限制 N1 微调 - 1000条/每场景

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
使用数据工程构建数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建数据集数据工程介绍数据工程使用流程数据集格式要求导入数据至盘古平台加工数据集发布数据集数据工程常见报错与解决方案

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持文本类数据集的清洗操作，分为数据提取、数据转换、数据过滤三类，文本类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
数据工程使用流程 - 盘古大模型 PanguLargeModels

从而精确优化数据质量，确保数据满足高标准，提升模型性能。配比数据集数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。流通数据集数据流通是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

视频类清洗算子能力清单数据清洗算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持视频类数据集的清洗操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

sequence：每个数据样本中的Token数量。数据预处理并发个数定义了在预处理数据时，能够同时处理文件的并行进程数量。设定这个参数的主要目的是通过并发处理来加速数据预处理，从而提升训练效率。数据配置训练数据选择训练模型所需的数据集。资源配置训练单元创建当前训练任务所需的训练单元数量。订阅提醒订阅提醒

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
产品优势 - 盘古大模型 PanguLargeModels

提供了深度和广度的语言学习基础，使其能够生成更加自然、准确且符合语境的文本。通过对海量数据的深入学习和分析，盘古大模型能够捕捉语言中的细微差别和复杂模式，无论是在词汇使用、语法结构，还是语义理解上，都能达到令人满意的精度。此外，模型具备自我学习和不断进化的能力，随着新数据的持续

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍

总条数： 184

上一页
1
2
3
4
5
...
10
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

为什么其他大模型适用的提示词在盘古大模型上效果不佳 - 盘古大模型 PanguLargeModels

科学计算大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

气象类清洗算子能力清单 - 盘古大模型 PanguLargeModels

使用数据工程构建CV大模型数据集 - 盘古大模型 PanguLargeModels

数据量和质量均满足要求，为什么盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

数据集加工场景介绍 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

创建科学计算大模型训练任务 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建数据集 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

视频类清洗算子能力清单 - 盘古大模型 PanguLargeModels

创建NLP大模型训练任务 - 盘古大模型 PanguLargeModels

产品优势 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线