华为云首页用户手册

盘古大模型 PanguLargeModels-查看NLP大模型评测报告:NLP大模型评测指标说明

盘古大模型 PanguLargeModels-查看NLP大模型评测报告:NLP大模型评测指标说明

时间：2025-02-12 15:04:35

盘古大模型 PanguLargeModels 评测NLP大模型

NLP大模型评测指标说明

NLP大模型支持自动评测与人工评测，各指标说明如表1、表2、表3。

表1 NLP大模型自动评测指标说明-不使用评测模板
评测指标（自动评测-不使用评测模板）	指标说明
F1_SCORE	精准率和召回率的调和平均数，数值越高，表明模型性能越好。
BLEU-1	模型生成句子与实际句子在单字层面的匹配度，数值越高，表明模型性能越好。
BLEU-2	模型生成句子与实际句子在词组层面的匹配度，数值越高，表明模型性能越好。
BLEU-4	模型生成结果和实际句子的加权平均精确率，数值越高，表明模型性能越好。
ROUGE-1	模型生成句子与实际句子在单个词的相似度，数值越高，表明模型性能越好。
ROUGE-2	模型生成句子与实际句子在两个词的相似度，数值越高，表明模型性能越好。
ROUGE-L	模型生成句子与实际句子在最长公共子序列的相似度，数值越高，表明模型性能越好。
PRECISION	问答匹配的精确度，模型生成句子与实际句子相比的精确程度，数值越高，表明模型性能越好。

表2 NLP大模型自动评测指标说明-使用评测模板
评测指标（自动评测-使用评测模板）	指标说明
评测得分	每个数据集上的得分为模型在当前数据集上的通过率；评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。
综合能力	综合能力是计算所有数据集通过率的加权平均数。

表3 NLP大模型人工评测指标说明
评测指标（人工评测）	指标说明
准确性	模型生成答案正确且无事实性错误。
average	模型生成句子与实际句子基于评估指标得到的评分后，统计平均得分。
goodcase	模型生成句子与实际句子基于评估指标得到的评分后，统计得分为5分的占比。
badcase	模型生成句子与实际句子基于评估指标得到的评分后，统计得分1分以下的占比。
用户自定义的指标	由用户定义的指标，如有用性、逻辑性、安全性等。

上一篇：盘古大模型 PanguLargeModels-使用数据工程构建CV大模型数据集:构建CV大模型数据集流程

下一篇：盘古大模型 PanguLargeModels-插件介绍

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

盘古大模型 PanguLargeModels-查看NLP大模型评测报告:NLP大模型评测指标说明

意见反馈

0/200

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

推荐文章

解决方案
相关专题