盘古大模型 PANGULARGEMODELS-查看评估任务详情:评估指标说明
评估指标说明
模型训练完成后,可以通过一系列的评估方法来衡量模型的性能。当前支持基于规则打分,即基于相似度/准确率进行打分,对比模型预测结果与标注数据的差异,从而计算模型指标。支持的模型指标请参见下表。
表1 规则打分指标
指标名称 |
说明 |
---|---|
BLEU-1 |
模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-2 |
模型生成句子与实际句子在中词组层面的匹配度,数值越高,表明模型性能越好。 |
BLEU-4 |
模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。 |
困惑度 |
用来衡量大语言模型预测一个语言样本的能力,数值越低,准确率也就越高,表明模型性能越好。 |
- 指标适用的任务场景
任务答案是相对比较确定的,例如固定答案的问答任务、NL2SQL、NL2JSON、文本分类等。
- 指标不适用的任务场景
文案创作、聊天等符合要求即可的场景,该类场景的创作型更强,不存在唯一答案。
- 指标与模型能力的关系
BLEU指标用于评估模型生成句子(candidate)与实际句子(reference)差异的指标。取值范围在0.0到1.0之间,值越高说明模型生成和实际答案匹配度越高。
可以作为模型能力的参考指标,当两个模型进行比较时,BLEU指标越大的模型效果一般更好。但是模型的能力还是需要通过人工评测来评判,BLEU指标只能作为参考。
- 指标的缺陷
BLEU指标只考虑n-gram词的重叠度,不考虑句子的结构和语义。