华为云计算 云知识 【云小课】EI第27课模型调优利器-ModelArts模型评估诊断
【云小课】EI第27课模型调优利器-ModelArts模型评估诊断

 

在训练模型后,用户往往需要通过测试 数据集 来评估新模型的泛化能力。通过验证测试数据集上的平均损失,可以评估模型对未知数据的预测能力。模型评价指标是评估模型泛化能力的标准,不同的指标往往会导致不同的评判结果。

ModelArts模型评估/诊断功能针对不同类型模型的评估任务,提供相应的评估指标。在展示评估结果的同时,会根据不同的数据特征对模型进行详细的评估,获得每个数据特征对评估指标的敏感度,并给出优化建议。模型评估/诊断功能帮助用户可以全面了解模型对不同数据特征的适应性,使得模型调优可以做到有的放矢。

当前模型评估功能覆盖图像分类、物体检测和图像语义分割三大场景,快来看看如何使用模型评估功能吧~

 

图像分类

图像分类评估指标说明

指标名称

子参数

说明

精度评估 图像类别分布 不同类别图片数量的统计值。
混淆矩阵 混淆矩阵可帮助您了解分类错误的出现位置
召回率 召回率,正确预测的正例数和实际正例总数的比值,这个值越大代表漏检的概率越小。计算公式R=TP/(TP+FN),即混淆矩阵中某一列预测正确的个数除以该列的样本和。
精确率 精确率,正确预测的正例数和预测正例总数的比值,这个值越大代表误检的概率越小。计算公式P=TP/(TP+FP),即混淆矩阵中某一行预测正确的个数除以该行的样本和。
F1值 精确率与召回率的调和均值。计算公式F1=2*P*R/(P+R),其中R为召回率,P为精确率。
ROC 曲线 ROC 曲线用于绘制采用不同分类阈值时的 TPR (真正例率,纵坐标)与 FPR(假正例率,横坐标),ROC曲线越接近左上角,该分类器的性能越好。
敏感度分析 不同特征范围下的准确率 将图片根据特征值,如亮度、模糊度等划分为几个部分,分别测试几个部分的精度然后绘图。
特征分布 图片特征值的分布图。
值敏感度 展示不同类别数据在不同特征值范围内的F1值 ,用于判别模型对哪个特征范围内的图片效果较好。

 

物体检测

物体检测评估指标说明

指标名称

子参数

说明

精度评估 图像类别分布 数据集中不同类别的图像框个数统计。
P-R曲线 根据每种分类的置信度对样例进行排序,逐个把样例加入正例进行预测,算出此时的精准率和召回率。使用这一系列的精准率和召回率绘制的曲线,即是一个类别的P-R曲线。
不同目标框交并比阈值下的mAP 计算不同目标框交并比阈值下的mAP值,并绘制曲线,反馈mAP值最高的阈值。其中交并比阈值是用于NMS时过滤可能预测为同一物体的重叠框的阈值。

不同置信度阈值下的F1值 计算不同置信度阈值下的平均F1值,并绘制曲线,反馈F1值最高的阈值。
误检分析

从预测结果角度统计错误检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种误检的错误类型,绘制成饼图,统计各类错误占错误检测的比例。

从预测结果的角度出发,预测框与实际框的交并比大于0.5时,预测框与实际框类别不符,认为是类别误检;预测框与实际框的交并比大于0.1小于0.5,预测框与实际类别相符,认为是位置误检;预测框与实际框的交并比小于0.1,认为是背景误检。
漏检分析 从实际标签角度统计遗漏检测的结果,包含准确检测、类别误检、背景误检、位置偏差四种漏检的结果类型,绘制成饼图,统计各类错误占漏检错误的比例。

从实际框的角度出发,实际框与预测框交并比大于0.5,实际框与预测框类别不符,认为是类别漏检;实际框与预测框的交并比大于0.1小于0.5,实际框与预测框类别相符,认为是位置漏检;实际框与所有预测类别相同的框交并比小于0.1,认为是背景漏检。
敏感度分析 不同特征范围下的准确率 与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。
特征分布 与图像分类相似,但可选更多和目标框相关的特征,如目标框的交叠程度,目标框的个数。

 

图像语义分割

图像语义分割评估指标说明

指标名称

子参数

说明

精度评估 图像类别分布 数据集中不同类别的像素个数统计。
交并比 简称IoU,计算每一类预测结果与标签的交并比,表达了预测集合与标签集合的交并比,对各类别的值求平均获得的就是平均交并比。交并比计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

Dice系数

取值范围为0-1,越接近1说明模型越好。Dice系数计算公式如下所示。

假设类别总数是k+1 类,pii 表示第i类分类正确的数量,pij 表示第i类被识别为第j类的数量。

 

调用模型评估接口了解评估结果

 

ModelArts提供了“analyse”接口,用于模型评估。用户在推理结束后,传入指定参数调用该接口即可获取评估结果。

analyse(task_type='',pred_list=[],label_list=[],name_list=[],custom_metric='',label_map_dict='')

上一篇:复制备份还原点CopyCheckpoint 下一篇:删除函数异步配置信息DeleteFunctionAsyncInvokeConfig

华为云11.11 AI&大数据分会场

高精度,多场景,快响应,AI&大数据助力企业降本增效