搜索_华为云

为什么微调后的盘古大模型评估结果很好，但实际场景表现很差 - 盘古大模型 PanguLargeModels

这种情况可能是由于以下几个原因导致的，建议您依次排查：测试集质量：请检查测试集的目标任务和分布与实际场景是否一致，质量较差的测试集无法反映模型的真实结果。数据质量：请检查训练数据的质量，若训练样本和目标任务不一致或者分布差异较大，则会加剧该现象。

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类
如何评估微调后的盘古大模型是否正常 - 盘古大模型 PanguLargeModels

模型评估：使用平台的“模型评估”功能，“模型评估”将对您之前上传的测试集进行评估。通过查看测试集样本的PPL、BLEU和ROUGE等指标，进行横向（相同训练数据+不同规格的通用模型）或纵向（不同训练数据训练的多个模型版本）对比来判断训练过程是否出现了问题。

帮助中心 > 盘古大模型 PanguLargeModels > 常见问题 > 大模型微调训练类
预测类数据集格式要求 - 盘古大模型 PanguLargeModels

目录下有多个数据文件时，需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样，如train01.csv；验证数据名称需包含eval字样；测试数据名称需包含test字样。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
效果评估与优化 - 盘古大模型 PanguLargeModels

图3 多场景测试-不同语言对复杂对话场景：如图4，当用户在对话中频繁切换意图时，测试意图识别节点的应答能力，确保其能够理解并适应多变的对话上下文。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > Agent应用实践 > 低代码构建多语言文本翻译工作流
微调典型问题 - 盘古大模型 PanguLargeModels

模型在测试集上表现不佳，泛化能力差。通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。通过可视化方法，数据可视化或者使用箱线图进行异常值的排查。结合数据自身特征，进行异常数据的筛选。对于异常值，视情况进行删除、替换、保留等操作，兼顾模型的收敛与鲁棒性。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型训练实践 > 盘古科学计算大模型微调训练实践
调优典型问题 - 盘古大模型 PanguLargeModels

表2 验证集选择的时间区段时间分辨率推理步数验证集选择的时间区段（需要至少在以下时间点内，且有连续数据，才能得到1条测试数据。） 1h 24 24h内每1h的数据（例：0点，1点，2点…次日0点）。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古科学计算大模型调优实践
调优典型问题 - 盘古大模型 PanguLargeModels

这种情况可能是由于以下几个原因导致的，建议您依次排查：测试集质量：请检查测试集的目标任务和分布与实际场景是否一致，质量较差的测试集无法反映模型的真实结果。数据质量：请检查训练数据的质量，若训练样本和目标任务不一致或者分布差异较大，则会加剧该现象。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古NLP大模型调优实践
视频类数据集格式要求 - 盘古大模型 PanguLargeModels

'database': { 'video_name':{ // 训练集 train 测试集 test。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 使用数据工程构建数据集 > 数据集格式要求
管理知识库 - 盘古大模型 PanguLargeModels

管理知识库 Agent开发平台支持对知识库执行获取知识库ID、删除、命中测试操作。新增、删除知识库中知识文档登录ModelArts Studio大模型开发平台，在“我的空间”模块，单击进入所需空间。在左侧导航栏中选择“Agent开发”，跳转至Agent开发平台。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
手动编排应用 - 盘古大模型 PanguLargeModels

相关度阈值：超过相关度阈值的搜索结果会提交给大模型进行总结，否则被过滤，可以参考知识库中命中测试的相关度分值调整该阈值。 topk召回数量：召回的相关性阈值top切片数量，如topk召回数量为5，则相关性阈值为前5的切片将被召回提交给大模型总结。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 编排与调用应用
数据预处理优化 - 盘古大模型 PanguLargeModels

模型在测试集上表现不佳，泛化能力差。优化调整策略如下：通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。通过可视化方法，数据可视化或者使用箱线图进行异常值的排查。结合数据自身特征，进行异常数据的筛选。

帮助中心 > 盘古大模型 PanguLargeModels > 最佳实践 > 模型调优实践 > 盘古科学计算大模型调优实践
创建知识库 - 盘古大模型 PanguLargeModels

知识库命中测试平台支持对创建的知识库进行命中测试，以评估知识库的效果和准确性。命中测试通过将用户的查询与知识库中的内容进行匹配，最终输出与查询相关的信息，并根据匹配的程度进行排序。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 创建与管理知识库
编排工作流 - 盘古大模型 PanguLargeModels

相关度阈值超过相关度阈值的搜索结果会提交给大模型进行总结，否则被过滤，可以参考知识库中命中测试的相关度分值调整该阈值。取值范围为0.01~0.99。 topk召回数量召回的相关性阈值top切片数量，如topk召回数量为5，则相关性阈值为前5的切片将被召回提交给大模型总结。

帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 开发盘古大模型Agent应用 > 编排与调用工作流
创建边缘资源池 - 盘古大模型 PanguLargeModels

nfs 192.168.xx.xxx:/var/docker/hilens ~/data 挂载后，可以使用以下命令查看： mount 回显如下，则成功： ... ... 192.168.0.150:/var/docker/hilens on ~/data type nfs4 测试

 帮助中心 > 盘古大模型 PanguLargeModels > 用户指南 > 管理盘古大模型资源池

总条数： 14

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

为什么微调后的盘古大模型评估结果很好，但实际场景表现很差 - 盘古大模型 PanguLargeModels

如何评估微调后的盘古大模型是否正常 - 盘古大模型 PanguLargeModels

预测类数据集格式要求 - 盘古大模型 PanguLargeModels

效果评估与优化 - 盘古大模型 PanguLargeModels

微调典型问题 - 盘古大模型 PanguLargeModels

调优典型问题 - 盘古大模型 PanguLargeModels

调优典型问题 - 盘古大模型 PanguLargeModels

视频类数据集格式要求 - 盘古大模型 PanguLargeModels

管理知识库 - 盘古大模型 PanguLargeModels

手动编排应用 - 盘古大模型 PanguLargeModels

数据预处理优化 - 盘古大模型 PanguLargeModels

创建知识库 - 盘古大模型 PanguLargeModels

编排工作流 - 盘古大模型 PanguLargeModels

创建边缘资源池 - 盘古大模型 PanguLargeModels

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线