搜索_华为云

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

一个比较常见的方法是，将无监督的文本按照章节、段落、字符数进行切片，让模型基于这个片段生成问答对，再将段落、问题和答案三者组装为有监督数据。使用模型构建的优点是数据丰富度更高，缺点是成本较高。当您将无监督数据构建为有监督数据时，请尽可能保证数据的多样性。

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

全角转半角：将文本中的全角字符转换为半角字符。标点符号归一化，支持统一格式的符号如下： {"？": "\?\？"} {"[":"〖"} {"]":"〗"} 数字符号归一化，例如将⓪|||⓿|统一为0.。支持统一格式的符号如下： {"0.

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
为什么微调后的盘古大模型的回答中会出现乱码 - 盘古大模型 PanguLargeModels

为什么微调后的盘古大模型的回答中会出现乱码当您将微调的模型部署以后，输入一个与目标任务同属的问题，模型生成的结果中出现了其他语言、异常符号、乱码等字符。

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
为什么多轮问答场景的盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

"], "target": "好的，以下是修改后的xxxx"} 多轮问答场景的输入（“context”字段）请务必使用“[问题, 回答, 问题, 回答, 问题, ……]”的方式来构造，若您的数据是同一个角色连续多次对话的“多轮问题”，可以将同一个角色的对话采用某个分隔符拼接到一个字符串中

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
Token计算器 - 盘古大模型 PanguLargeModels

with_prompt 否 Boolean 是否仅统计输入字符的Token数 true：仅统计输入字符串的Token数； false：统计输入字符串和推理过程产生字符的总Token数。

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > API
文本对话 - 盘古大模型 PanguLargeModels

响应参数非流式状态码： 200 表6 响应Body参数参数参数类型描述 id String 用来标识每个响应的唯一字符串。 created Integer 响应生成的时间。

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > API > NLP大模型
图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

数据转换图文异常字符过滤将文本数据中携带的异常字符替换为空值，数据条目不变。不可见字符，例如U+0000-U+001F 表情符六网页标签符号<p> 特殊符号，比如● █ ◆ 乱码和无意义的字符�� 父主题：数据集清洗算子介绍

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集清洗算子介绍
评估文本类数据集 - 盘古大模型 PanguLargeModels

在“数据集选择”页签选择需要评估的加工数据集，并设置抽样样本的数量与字符数。单击“下一步”，选择评估标准。单击“下一步”设置评估人员，单击“下一步”填写任务名称。单击“完成创建”，将返回至“数据评估”页面，评估任务创建成功后状态将显示为“已创建”。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布文本类数据集
创建插件 - 盘古大模型 PanguLargeModels

表2 插件参数配置说明参数类型参数名称参数说明请求参数参数名称参数的名称，长度为1 ~ 50个字符，参数名称会作为大模型解析参数含义的依据。参数描述参数的描述，长度为1 ~ 200个字符，参数描述会作为大模型解析参数含义的依据。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理插件
打造短视频营销文案创作助手 - 盘古大模型 PanguLargeModels

保证微调数据内容干净，不包含异常字符。保证输出（target字段）内容符合业务场景需求。例如，短视频口播场景要求文风可以引起观众兴趣、不丢失产品特点且可以引导观众购买。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
NLP大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

此外，不同类型的NLP大模型在训练过程中，读取中文、英文内容时，字符长度转换为Token长度的转换比有所不同，详见表2。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型 > 训练NLP大模型
编排工作流 - 盘古大模型 PanguLargeModels

参数名称：参数的名称长度必须大于等于1个字符，并且字符只允许为下面三种类型：字母（A-Z或a-z）数字（0-9）特殊字符：_ 说明：用户自定义输出参数名称不允许与内置输出参数rawOutput同名。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 编排与调用工作流
构造请求 - 盘古大模型 PanguLargeModels

若请求消息体中参数支持中文，则中文字符必须为UTF-8编码。每个接口的请求消息体内容不同，也并不是每个接口都需要有请求消息体（或者说消息体为空），GET、DELETE操作类型的接口就不需要消息体，消息体具体内容需要根据具体接口而定。

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > 如何调用REST API
大模型开发基本概念 - 盘古大模型 PanguLargeModels

token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token，然后根据模型的概率分布进行采样或计算。例如，在英文中，有些组合单词会根据语义拆分，如overweight会被设计为2个token：“over”、“weight”。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
创建预测大模型训练任务 - 盘古大模型 PanguLargeModels

类别特征列指定使用LabelEncoder处理的字符串类型类别特征的列表。格式为["列名1","列名2"]，默认设置为[]，表示没有需要处理的类别特征。 LabelEncoder的作用是将类别特征转换为数值型特征，使模型能够处理这些特征。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古预测大模型 > 训练预测大模型

总条数： 15

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

无监督领域知识数据量无法支持增量预训练，如何进行模型学习 - 盘古大模型 PanguLargeModels

文本类清洗算子能力清单 - 盘古大模型 PanguLargeModels

为什么微调后的盘古大模型的回答中会出现乱码 - 盘古大模型 PanguLargeModels

为什么多轮问答场景的盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

Token计算器 - 盘古大模型 PanguLargeModels

文本对话 - 盘古大模型 PanguLargeModels

图片类清洗算子能力清单 - 盘古大模型 PanguLargeModels

评估文本类数据集 - 盘古大模型 PanguLargeModels

创建插件 - 盘古大模型 PanguLargeModels

打造短视频营销文案创作助手 - 盘古大模型 PanguLargeModels

NLP大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

编排工作流 - 盘古大模型 PanguLargeModels

构造请求 - 盘古大模型 PanguLargeModels

大模型开发基本概念 - 盘古大模型 PanguLargeModels

创建预测大模型训练任务 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线