盘古大模型 PanguLargeModels-查看NLP大模型评测报告:NLP大模型评测指标说明
NLP大模型评测指标说明
NLP大模型支持自动评测与人工评测,各指标说明如表1、表2、表3。
评测指标(自动评测-不使用评测模板) |
指标说明 |
---|---|
F1_SCORE |
精准率和召回率的调和平均数,数值越高,表明模型性能越好。 |
BLEU-1 |
模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-2 |
模型生成句子与实际句子在词组层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-4 |
模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。 |
ROUGE-1 |
模型生成句子与实际句子在单个词的相似度,数值越高,表明模型性能越好。 |
ROUGE-2 |
模型生成句子与实际句子在两个词的相似度,数值越高,表明模型性能越好。 |
ROUGE-L |
模型生成句子与实际句子在最长公共子序列的相似度,数值越高,表明模型性能越好。 |
PRECISION |
问答匹配的精确度,模型生成句子与实际句子相比的精确程度,数值越高,表明模型性能越好。 |