盘古大模型 PanguLargeModels-查看NLP大模型评测报告:NLP大模型评测指标说明

时间:2025-02-12 15:04:35

NLP大模型评测指标说明

NLP大模型支持自动评测与人工评测,各指标说明如表1表2表3

表1 NLP大模型自动评测指标说明-不使用评测模板

评测指标(自动评测-不使用评测模板)

指标说明

F1_SCORE

精准率和召回率的调和平均数,数值越高,表明模型性能越好。

BLEU-1

模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。

BLEU-2

模型生成句子与实际句子在词组层面的匹配度,数值越高,表明模型性能越好。

BLEU-4

模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。

ROUGE-1

模型生成句子与实际句子在单个词的相似度,数值越高,表明模型性能越好。

ROUGE-2

模型生成句子与实际句子在两个词的相似度,数值越高,表明模型性能越好。

ROUGE-L

模型生成句子与实际句子在最长公共子序列的相似度,数值越高,表明模型性能越好。

PRECISION

问答匹配的精确度,模型生成句子与实际句子相比的精确程度,数值越高,表明模型性能越好。

表2 NLP大模型自动评测指标说明-使用评测模板

评测指标(自动评测-使用评测模板)

指标说明

评测得分

每个数据集上的得分为模型在当前数据集上的通过率;评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。

综合能力

综合能力是计算所有数据集通过率的加权平均数。

表3 NLP大模型人工评测指标说明

评测指标(人工评测)

指标说明

准确性

模型生成答案正确且无事实性错误。

average

模型生成句子与实际句子基于评估指标得到的评分后,统计平均得分。

goodcase

模型生成句子与实际句子基于评估指标得到的评分后,统计得分为5分的占比。

badcase

模型生成句子与实际句子基于评估指标得到的评分后,统计得分1分以下的占比。

用户自定义的指标

由用户定义的指标,如有用性、逻辑性、安全性等。

support.huaweicloud.com/usermanual-pangulm/pangulm_04_0238.html