搜索_华为云

为什么微调后的盘古大模型评估结果很好，但实际场景表现很差 - 盘古大模型 PanguLargeModels

一个与目标任务同属的问题，回答的结果却不理想。这种情况可能是由于以下几个原因导致的，建议您依次排查：测试集质量：请检查测试集的目标任务和分布与实际场景是否一致，质量较差的测试集无法反映模型的真实结果。数据质量：请检查训练数据的质量，若训练样本和目标任务不一致或者分布差异较大，

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
如何评估微调后的盘古大模型是否正常 - 盘古大模型 PanguLargeModels

训练效果，确认训练过程是否出现了过拟合或欠拟合等异常情况。模型评估：使用平台的“模型评估”功能，“模型评估”将对您之前上传的测试集进行评估。通过查看测试集样本的PPL、BLEU和ROUGE等指标，进行横向（相同训练数据+不同规格的通用模型）或纵向（不同训练数据训练的多个模型版本）对比来判断训练过程是否出现了问题。

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类问题
使用“能力调测”调用科学计算大模型 - 盘古大模型 PanguLargeModels

使用“能力调测”调用科学计算大模型平台提供的“能力调测”功能支持用户直接调用预置模型或经过训练的模型。使用该功能前，需完成模型的部署操作，详见创建科学计算大模型部署任务。科学计算大模型支持全球中期天气要素预测、全球中期降水预测、全球海洋要素、区域海洋要素、全球海洋生态、全球海

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 调用科学计算大模型
预测类数据集格式要求 - 盘古大模型 PanguLargeModels

目录下只有1个数据文件时，文件无命名要求。目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字眼，如train01.csv；验证数据名称需包含eval字眼；测试数据名称需包含test字眼。文件的命名不能同时包含train、eval和test中的两个或三个。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集科学计算大模型支持接入的数据集类型盘古科学计算大模型仅支持接入气象类数据集，该数据集格式要求请参见气象类数据集格式要求。构建科学计算大模型训练数据要求构建科学计算大模型进行训练的数据要求见表1。表1 科学计算大模型训练数据要求模型类别

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型
使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

数据集中若存在异常数据，可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。说明：盘古NLP大模型仅支持接入文本类数据集。若数据类型为文档、网页，则加工数据集为必选项，否则为可选项。创建文本类数据集加工任务上线加工后的数据集对加工后的数据集执行上线操作。上线加工后的文本类数据集

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古NLP大模型
文本类数据集格式要求 - 盘古大模型 PanguLargeModels

文件格式文件要求文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。网页 html 数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。预训练文本 jsonl jsonl格式：text表示预

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
数据工程介绍 - 盘古大模型 PanguLargeModels

平台支持的数据类型数据类型数据内容数据文件格式要求文本类文档支持txt、mobi、epub、docx、pdf，详见文本类数据集格式要求。网页支持html，详见文本类数据集格式要求。预训练文本支持jsonl，详见文本类数据集格式要求。单轮问答支持jsonl、csv，详见文本类数据集格式要求。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集
图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

数据转换图文异常字符过滤将文本数据中携带的异常字符替换为空值，数据条目不变。不可见字符，比如U+0000-U+001F 表情符六网页标签符号<p> 特殊符号，比如● █ ◆ 乱码和无意义的字符�� 图片类加工算子能力清单表2 图片类加工算子功能表算子分类算子名称

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
其他类数据集格式要求 - 盘古大模型 PanguLargeModels

avi或.mp4格式，标注格式为.json。必须包含两个及以上后缀名字为avi或mp4的文件。每个视频时长要大于128s，FPS>=10，且测试集训练集都要有视频。数据集最大100万个文件，单文件最大10GB，整个数据集最大10TB。支持视频的格式包括常见的mp4和或avi格式文

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 数据集格式要求
科学计算大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

科学计算大模型训练流程与选择建议科学计算大模型训练流程介绍科学计算大模型主要用于。科学计算大模型的训练主要分为两个阶段：预训练与微调。预训练阶段：预训练是模型学习基础知识的过程，基于大规模通用数据集进行。例如，在区域海洋要素预测中，可以重新定义深海变量、海表变量，调整深度

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古科学计算大模型 > 训练科学计算大模型
文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

查找数据集每一条数据中携带的异常字符，并将异常字符替换为空值，数据条目不变。不可见字符，比如U+0000-U+001F。表情符六。网页标签符号<p>。特殊符号，比如● █ ◆。乱码和无意义的字符��。自定义正则过滤删除符合自定义正则表达式的数据。自定义关键词过滤

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程准备与处理数据集 > 加工数据集 > 数据集加工算子介绍
打造政务智能问答助手 - 盘古大模型 PanguLargeModels

来源一：互联网开源数据集，如政府网站网页、政府在线问答公开数据、政务百科等。来源二：特定的私域数据，针对于具体场景和项目需求，收集相关的文本数据。比如通过与当地政府的政数局进行合作，获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于：在线网页、离线word文档、离线txt文

 帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 从基模型训练出行业大模型

总条数： 13

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

为什么微调后的盘古大模型评估结果很好，但实际场景表现很差 - 盘古大模型 PanguLargeModels

如何评估微调后的盘古大模型是否正常 - 盘古大模型 PanguLargeModels

使用“能力调测”调用科学计算大模型 - 盘古大模型 PanguLargeModels

预测类数据集格式要求 - 盘古大模型 PanguLargeModels

使用数据工程构建科学计算大模型数据集 - 盘古大模型 PanguLargeModels

使用数据工程构建NLP大模型数据集 - 盘古大模型 PanguLargeModels

文本类数据集格式要求 - 盘古大模型 PanguLargeModels

数据工程介绍 - 盘古大模型 PanguLargeModels

图片类加工算子能力清单 - 盘古大模型 PanguLargeModels

其他类数据集格式要求 - 盘古大模型 PanguLargeModels

科学计算大模型训练流程与选择建议 - 盘古大模型 PanguLargeModels

文本类加工算子能力清单 - 盘古大模型 PanguLargeModels

打造政务智能问答助手 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线