搜索_华为云

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

"caption":"图片对应的文本描述"} 单个文件大小不超过50GB，单个压缩包大小不超过50GB，文件数量最多1000个。图片+QA对图片支持tar，QA对支持jsonl 图片：图片以tar包格式存储，可以多个tar包。tar包存储原始的图片，每张图片命名要求唯一（如abc.jpg）

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
文本对话 - 盘古大模型 PanguLargeModels

白名单词库列表。 question_moderation boolean 是否开启对提示词进行内容审核，true：审核，false：不审核，默认为true。 answer_moderation boolean 是否开启对推理结果进行内容审核，true：审核，false：不审核，默认为true。

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > API > NLP大模型
为什么多轮问答场景的盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

回答, 问题, ……]”的方式来构造，若您的数据是同一个角色连续多次对话的“多轮问题”，可以将同一个角色的对话采用某个分隔符拼接到一个字符串中。例如：原始对话示例： A：xxx号话务员为您服务！ A：先生您好，有什么可以帮助您的？ B：你好，是这样的 B：我家里上不了网了 B：网连不上

 帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类
Token计算器 - 盘古大模型 PanguLargeModels

是 List<String> 待统计Token数的字符串。List长度必须为奇数。 with_prompt 否 Boolean 是否仅统计输入字符的Token数 true：仅统计输入字符串的Token数； false：统计输入字符串和推理过程产生字符的总Token数。响应参数表4

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > API
发布文本类数据集 - 盘古大模型 PanguLargeModels

标准格式的示例如下，其中，context和target是键值对。 {"context": "你好，请介绍自己", "target": "我是盘古大模型"} 盘古格式：训练盘古大模型时，需要将数据集格式发布为“盘古格式”。盘古格式的示例如下，其中，context和target是键值对。与标准格式不同，context是一个数组。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 发布数据集 > 发布文本类数据集
打造短视频营销文案创作助手 - 盘古大模型 PanguLargeModels

生成内容的字数要求为200个字左右； 2.生成的内容必须生动有趣、丰富多样； 3.生成内容的语言风格必须口语化； 4.生成的内容开头必须能足够引起观众的兴趣，比如可以采取对目标观众反问、对比等方式； 5.生成的内容结尾必须要引导观众购买； 6.生成的内容必须紧扣产品本身，突出产品的特点，不能出现不相关的内容； 7

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

问题一：JSON字段缺失、JSON字段或值错误。解决方案：对于这几种情况，需要在微调数据中增大该缺失字段的数据比例，同时也可以在Prompt中加入对该字段的强调。问题二：JSON格式错误、JSON内容发散。解决方案：对于这种情况，可以尝试修改推理参数。例如降低“温度”参数的值，可以起到规范模型输出，使结果不再多样化。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型
文本类加工算子介绍 - 盘古大模型 PanguLargeModels

数据。 PDF内容提取从PDF中提取文本，转化为结构化数据，支持文本、表格、公式等内容提取。 JSON内容提取提取JSON文件中的键值对信息。 HTML内容提取基于标签路径提取HTML数据内容，并将其他与待提取标签路径无关的内容删除。电子书内容提取从电子书中提取出所有文本内容。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
知识库介绍 - 盘古大模型 PanguLargeModels

知识库介绍平台提供了知识库功能来管理和存储数据，支持为应用提供自定义数据，并与之进行互动。知识库支持导入以下格式的本地文档：文本文档数据。支持上传常见文本格式，包括：txt、doc、docx、pdf、ppt、pptx格式。表格数据。支持上传常见的表格文件格式，便于管理和分

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
数据预处理优化 - 盘古大模型 PanguLargeModels

数据预处理优化模型训练前，需要对数据进行加工，防止某些特征存在极端异常值或大面积错误数据，导致模型训练不稳定。可能会引发如下问题：模型对异常值过度敏感，导致拟合异常值而非整体数据分布。训练过程中损失波动较大，甚至出现梯度爆炸。模型在测试集上表现不佳，泛化能力差。优化调整策略如下：

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古科学计算大模型调优实践
优化训练数据的质量 - 盘古大模型 PanguLargeModels

数据配比的典型方法如下：平衡数据类别：在多任务或多类别的训练中，确保数据类别的平衡，以避免模型对某些类别的偏倚。可以通过过采样、欠采样或生成合成样本来调整类别比例例如：情感类别多分类任务，通过对“中立”情感进行过采样、对“消极”、“积极”情感进行欠采样调整比例。表2 平衡数据前情感类别数据占比

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古NLP大模型调优实践
图片类加工算子介绍 - 盘古大模型 PanguLargeModels

图文提取提取图文压缩包中的JSON文本和图片，并对图片进行结构化解析（BASE64编码）。数据过滤图片元数据过滤基于图片存储大小、宽高比属性进行图片/图文数据加工。图文文本长度过滤过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母，文本长度均计数为1。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 加工数据集 > 数据集加工算子介绍
理解底层任务 - 盘古大模型 PanguLargeModels

理解底层任务需要站在模型的角度理解相关任务的真实底层任务，并清晰描述任务要求。例如，在文档问答任务中，任务本质不是生成，而是抽取任务，需要让模型“从文档中抽取出问题的答案，不能是主观的理解或解释，不能修改原文的任何符号、字词和格式”，如果使用“请阅读上述文档，并生成以下问题

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 提示词写作实践 > 提示词写作进阶技巧
大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

数据标准化：将数据转换为统一的格式或范围，特别是在处理数值型数据时（如归一化或标准化）。去噪处理：去除无关或异常值，减少对模型训练的干扰。数据预处理的目的是保证数据集的质量，使其能够有效地训练模型，并减少对模型性能的不利影响。模型开发：模型开发是大模型项目中的核心阶段，通常包括以下步骤：选择合适的模型：根据任务目标选择适当的模型。

帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 基础知识
Agent开发常见报错与解决方案 - 盘古大模型 PanguLargeModels

112501 工作流认证失败。查看认证配置。 112502 缺少必要参数。从打印日志可以看出当前缺失何种参数。 112503 工作流连接数据库失败。请联系客服解决。 112504 缺少必要权限。查看当前用户权限。 112513 工作流流程中存在死循环。检查工作流画布。 112514

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用
返回结果 - 盘古大模型 PanguLargeModels

活方式。他开始学习宋朝的礼仪，尝试理解这个时代的文化。在宋朝，李晓遇到了许多有趣的人。他遇到了一位名叫赵敏拿来的小女孩，她聪明伶俐，让李晓对她产生了深深的喜爱。他还遇到了一位名叫王安石的大儒，他的智慧和博学让李晓深感敬佩。在宋朝的生活中，李晓也遇到了许多困难。他必须适应新的食物，

帮助中心 > 盘古大模型 PanguLargeModels > API参考 > 如何调用REST API
数据工程 - 盘古大模型 PanguLargeModels

数据合成：平台支持利用预置或自定义的数据指令对预训练文本、单轮问答、单轮问答（人设））数据集类型进行处理，并根据设定的轮数生成新数据。通过数据合成技术，可以生成大量高质量的训练数据，这些数据可以用于大模型的预训练，增强模型的泛化能力和性能。数据标注：平台支持对无标签的数据添加标签或对现有的标签进行重新标

 帮助中心 > 盘古大模型 PanguLargeModels > 产品介绍 > 产品功能
数据工程介绍 - 盘古大模型 PanguLargeModels

图片格式支持：jpg、jpeg、png、bmp，所有图片需保存为tar包。 Caption格式支持：jsonl 图片+QA对图片格式支持：jpg、jpeg、png、bmp，所有图片需保存为tar包。 QA对格式支持：jsonl 物体检测图片格式支持：jpg、jpeg、png、bmp 标注格式支持：xml

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集
编排工作流 - 盘古大模型 PanguLargeModels

参数提取：开启后，可增加输出参数的配置，并对参数中文名进行额外配置。关闭参数提取，输出为用户最近一轮（即回答当前提问器）的对话输入。中文名称：若开启“参数提取 > 是否提取”功能，可额外配置中文名称。参数校验：可自定义参数校验规则对输出参数规范性进行校验。规则包括参数名称、校验类型及校验规则。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 编排与调用工作流
数据工程使用流程 - 盘古大模型 PanguLargeModels

训练的标准和业务需求。不同类型的数据集使用专门设计的算子，例如去除噪声、冗余信息等，提升数据质量。合成数据集利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。标注数据集为无标签数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集

总条数： 65

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

图片类数据集格式要求 - 盘古大模型 PanguLargeModels

文本对话 - 盘古大模型 PanguLargeModels

为什么多轮问答场景的盘古大模型微调效果不好 - 盘古大模型 PanguLargeModels

Token计算器 - 盘古大模型 PanguLargeModels

发布文本类数据集 - 盘古大模型 PanguLargeModels

打造短视频营销文案创作助手 - 盘古大模型 PanguLargeModels

基于NL2JSON助力金融精细化运营 - 盘古大模型 PanguLargeModels

文本类加工算子介绍 - 盘古大模型 PanguLargeModels

知识库介绍 - 盘古大模型 PanguLargeModels

数据预处理优化 - 盘古大模型 PanguLargeModels

优化训练数据的质量 - 盘古大模型 PanguLargeModels

图片类加工算子介绍 - 盘古大模型 PanguLargeModels

理解底层任务 - 盘古大模型 PanguLargeModels

大模型开发基本流程介绍 - 盘古大模型 PanguLargeModels

Agent开发常见报错与解决方案 - 盘古大模型 PanguLargeModels

返回结果 - 盘古大模型 PanguLargeModels

数据工程 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

编排工作流 - 盘古大模型 PanguLargeModels

数据工程使用流程 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线