搜索_华为云

文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

格、表单、公式等内容提取。数据转换个人数据脱敏对文本中的电话号码、邮箱、身份证、车牌号、IP地址、URL地址、MAC地址、护照号、IMEI等个人敏感信息进行数据脱敏，或直接删除敏感信息。中文简繁转换将简体文本转换为繁体，或将繁体文本转换为简体。符号标准化查找数据中携

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

量的要求较大，如果您的无监督文档量级过小，达不到预训练要求，您可以通过一些手段将其转换为有监督数据，再将转换后的领域知识与目标任务数据混合，使用微调的方式让模型学习。这里提供了一些将无监督数据转换为有监督数据的方案，供您参考：基于规则构建：您可以通过采用一些简单的规则来构建有监督数据。比如：

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
气象类加工算子能力清单 - 盘古大模型 PanguLargeModels

气象类加工算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持气象类数据集的加工操作，气象类加工算子能力清单见表1。表1 气象类加工算子能力清单

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

图片类加工算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台提供了图文类、图片类加工算子，算子能力清单见表1、表2。图文类加工算子能力清单表1

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
视频类加工算子能力清单 - 盘古大模型 PanguLargeModels

视频类加工算子能力清单数据加工算子为用户提供了多种数据操作能力，包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息，并进行深度加工，以生成高质量的训练数据。平台支持视频类数据集的加工操作，分为数据提取、数据过滤、数据打标三类，视频类加工算子能力清单见表1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
使用盘古加工算子构建单轮问答数据集 - 盘古大模型 PanguLargeModels

此示例演示了如何使用加工算子轻松构建单轮问答数据集。数据集的加工算子是一种灵活的数据预处理工具，能够帮助您将原始数据转化为所需的格式。通过使用加工算子，您可以提取、转换、过滤原始数据，生成适合大模型训练的数据集。准备工作请提前准备数据并上传至OBS服务，上传步骤请详见通过控制台快速使用OBS。操作流程

 帮助中心 > 盘古大模型 PanguLargeModels > 快速入门
发布文本类数据集 - 盘古大模型 PanguLargeModels

默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要将数据集格式发布为“盘古格式”。自定义格式：文本类数据集可以使用自定义脚本进行数据格式转换。发布文本类数据集操作步骤如下：登录ModelArts Studio大模型开发平台，进入所需操作空间。图1 进入操作空间在左侧导航栏中选择“数据工程

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 发布数据集
变更计费模式 - 盘古大模型 PanguLargeModels

变更计费模式盘古大模型的模型订阅服务、数据托管服务、推理服务默认采用包周期计费，数据智算服务、数据通算服务、训练服务默认采用按需计费。盘古大模型使用周期内不支持变更配置。

帮助中心 > 盘古大模型 PanguLargeModels > 计费说明
基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

型消除语义歧义性，识别用户查询意图，并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输入抽取关键信息并转换为JSON格式输出，以供下游操作，从而满足该场景下客户需求。金融场景下，NL2JSON能力可以有效消除用户语义歧义性，提高数据处理的灵活

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
数据集加工场景介绍 - 盘古大模型 PanguLargeModels

数据集加工场景介绍数据加工概念数据加工是数据工程中的核心环节，旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作，以确保数据符合模型训练的标准和业务需求。通过这一过程，用户能够优化数据质量，去除噪声和冗余信息，提升数据的准确性和一致性，为后续的模型训练提供

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集
发布图片类数据集 - 盘古大模型 PanguLargeModels

默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要将数据集格式发布为“盘古格式”。自定义格式：文本类数据集可以使用自定义脚本进行数据格式转换。发布图片类数据集操作步骤如下：登录ModelArts Studio大模型开发平台，进入所需操作空间。图1 进入操作空间在左侧导航栏中选择“数据工程

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 发布数据集
数据工程使用流程 - 盘古大模型 PanguLargeModels

平台支持发布的数据集格式为默认格式、盘古格式、自定义格式，可按需进行数据集格式转换。默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。自定义格式：文本类数据集可以使用自定义脚本进行数据格式转换。父主题：使用数据工程准备与处理数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
数据集发布场景介绍 - 盘古大模型 PanguLargeModels

能引发的问题，从而构建高质量、适应性强的数据集，为后续的模型训练、验证和应用提供坚实的数据支持。数据发布意义数据发布不仅包括数据的格式转换，还涉及数据比例的调整，以确保数据在规模、质量和内容上满足训练标准。具体而言，数据集发布具有以下重要意义：数据比例和结构调整：平台提供灵

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 发布数据集
NLP大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

选择合适的模型，从而提高模型的整体效果，详见表1。此外，不同类型的NLP大模型在训练过程中，读取中文、英文内容时，字符长度转换为Token长度的转换比有所不同，详见表2。表1 不同系列NLP大模型对处理文本的长度差异模型支持区域模型名称可处理最大Token长度说明西南-贵阳一

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
ModelArts Studio大模型开发平台使用流程 - 盘古大模型 PanguLargeModels

训练任务。平台支持发布的数据集格式为默认格式、盘古格式，可按需进行数据集格式转换。默认格式：平台默认的格式。盘古格式：训练盘古大模型时，需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。 NLP大模型开发流程 ModelArts Studio大模型开发平

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南
数据工程 - 盘古大模型 PanguLargeModels

训练前的高质量标准。数据发布：平台支持将处理后的数据集发布为多种格式，包括默认格式和盘古格式。尤其对于文本类和图片类数据集，平台支持将其转换为专门用于训练盘古大模型的盘古格式，为后续模型训练提供高效的数据支持。通过整合上述功能，数据工程模块不仅帮助用户高效构建高质量的训练数据

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
创建并管理盘古工作空间 - 盘古大模型 PanguLargeModels

Studio大模型开发平台，平台支持数据工程、模型开发、Agent开发等功能。如果用户具备多个空间的访问权限，可在页面左上角单击切换空间。图2 切换空间管理盘古工作空间盘古工作空间支持用户查看当前空间详情，修改空间名称与描述，还可以对不需要的空间实现删除操作。登录ModelArts

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 准备工作 > 创建并管理盘古工作空间
数据工程介绍 - 盘古大模型 PanguLargeModels

数据加工：数据加工是确保数据质量的关键步骤。平台提供一系列数据清洗、过滤、转换等加工操作，旨在确保原始数据能够满足各种业务需求和模型训练的标准。针对不同类型的数据集，平台设计了专用的加工算子（即为特定数据处理任务预定义的操作模块，如文本去重、格式转换、异常处理等），通过这些算子能够高效地处理各类数据。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

去除重复数据：确保数据集中每条数据的唯一性。填补缺失值：填充数据中的缺失部分，常用方法包括均值填充、中位数填充或删除缺失数据。数据标准化：将数据转换为统一的格式或范围，特别是在处理数值型数据时（如归一化或标准化）。去噪处理：去除无关或异常值，减少对模型训练的干扰。数据预处理的目的是

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
大模型开发基本概念 - 盘古大模型 PanguLargeModels

大模型的计量单位token指的是什么令牌（Token）是指模型处理和生成文本的基本单位。token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token，然后根据模型的概率分布进行采样或计算。例如，在英文中，有些组合单词会根据语义拆分，如overweight会被设计为2个to

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识

总条数： 33

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

气象类加工算子能力清单 - 盘古大模型 PanguLargeModels

图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

视频类加工算子能力清单 - 盘古大模型 PanguLargeModels

使用盘古加工算子构建单轮问答数据集 - 盘古大模型 PanguLargeModels

发布文本类数据集 - 盘古大模型 PanguLargeModels

变更计费模式 - 盘古大模型 PanguLargeModels

基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

数据集加工场景介绍 - 盘古大模型 PanguLargeModels

发布图片类数据集 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

数据集发布场景介绍 - 盘古大模型 PanguLargeModels

NLP大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

ModelArts Studio大模型开发平台使用流程 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

创建并管理盘古工作空间 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

大模型开发基本概念 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线