在训练模型后,用户往往需要通过测试 数据集 来评估新模型的泛化能力。通过验证测试数据集上的平均损失,可以评估模型对未知数据的预测能力。模型评价指标是评估模型泛化能力的标准,不同的指标往往会导致不同的评判结果。
ModelArts模型评估/诊断功能针对不同类型模型的评估任务,提供相应的评估指标。在展示评估结果的同时,会根据不同的数据特征对模型进行详细的评估,获得每个数据特征对评估指标的敏感度,并给出优化建议。模型评估/诊断功能帮助用户可以全面了解模型对不同数据特征的适应性,使得模型调优可以做到有的放矢。
当前模型评估功能覆盖图像分类、物体检测和图像语义分割三大场景,快来看看如何使用模型评估功能吧~
图像分类
指标名称 |
子参数 |
说明 |
精度评估 | 图像类别分布 | 不同类别图片数量的统计值。 |
混淆矩阵 | 混淆矩阵可帮助您了解分类错误的出现位置 | |
召回率 | 召回率,正确预测的正例数和实际正例总数的比值,这个值越大代表漏检的概率越小。计算公式R=TP/(TP+FN),即混淆矩阵中某一列预测正确的个数除以该列的样本和。 | |
精确率 | 精确率,正确预测的正例数和预测正例总数的比值,这个值越大代表误检的概率越小。计算公式P=TP/(TP+FP),即混淆矩阵中某一行预测正确的个数除以该行的样本和。 | |
F1值 | 精确率与召回率的调和均值。计算公式F1=2*P*R/(P+R),其中R为召回率,P为精确率。 | |
ROC 曲线 | ROC 曲线用于绘制采用不同分类阈值时的 TPR (真正例率,纵坐标)与 FPR(假正例率,横坐标),ROC曲线越接近左上角,该分类器的性能越好。 | |
敏感度分析 | 不同特征范围下的准确率 | 将图片根据特征值,如亮度、模糊度等划分为几个部分,分别测试几个部分的精度然后绘图。 |
特征分布 | 图片特征值的分布图。 | |
值敏感度 | 展示不同类别数据在不同特征值范围内的F1值 ,用于判别模型对哪个特征范围内的图片效果较好。 |
物体检测
指标名称 |
子参数 |
说明 |
精度评估 | 图像类别分布 | 数据集中不同类别的图像框个数统计。 |
P-R曲线 | 根据每种分类的置信度对样例进行排序,逐个把样例加入正例进行预测,算出此时的精准率和召回率。使用这一系列的精准率和召回率绘制的曲线,即是一个类别的P-R曲线。 | |
不同目标框交并比阈值下的mAP | 计算不同目标框交并比阈值下的mAP值,并绘制曲线,反馈mAP值最高的阈值。其中交并比阈值是用于NMS时过滤可能预测为同一物体的重叠框的阈值。
|
|
不同置信度阈值下的F1值 | 计算不同置信度阈值下的平均F1值,并绘制曲线,反馈F1值最高的阈值。 | |
误检分析 |
从预测结果角度统计错误检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种误检的错误类型,绘制成饼图,统计各类错误占错误检测的比例。 从预测结果的角度出发,预测框与实际框的交并比大于0.5时,预测框与实际框类别不符,认为是类别误检;预测框与实际框的交并比大于0.1小于0.5,预测框与实际类别相符,认为是位置误检;预测框与实际框的交并比小于0.1,认为是背景误检。 |
|
漏检分析 | 从实际标签角度统计遗漏检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种漏检的结果类型,绘制成饼图,统计各类错误占漏检错误的比例。
从实际框的角度出发,实际框与预测框交并比大于0.5,实际框与预测框类别不符,认为是类别漏检;实际框与预测框的交并比大于0.1小于0.5,实际框与预测框类别相符,认为是位置漏检;实际框与所有预测类别相同的框交并比小于0.1,认为是背景漏检。 |
|
敏感度分析 | 不同特征范围下的准确率 | 与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。 |
特征分布 | 与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。 |
图像语义分割
指标名称 |
子参数 |
说明 |
精度评估 | 图像类别分布 | 数据集中不同类别的像素个数统计。 |
交并比 | 简称IoU,计算每一类预测结果与标签的交并比,表达了预测集合与标签集合的交并比,对各类别的值求平均获得的就是平均交并比。交并比计算公式如下所示。
假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。 |
|
Dice系数 |
取值范围为0-1,越接近1说明模型越好。Dice系数计算公式如下所示。
假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。 |
调用模型评估接口了解评估结果
ModelArts提供了“analyse”接口,用于模型评估。用户在推理结束后,传入指定参数调用该接口即可获取评估结果。
analyse(task_type='',pred_list=[],label_list=[],name_list=[],custom_metric='',label_map_dict='')