首页 理论教育性能评估方法——全面分析与提升

性能评估方法——全面分析与提升

【摘要】:性能评估是目标识别系统设计的一个重要部分,它将决定系统是否满足特定应用的要求以及预期的作用。如果没有达到要求,设计者应当根据评估结果重新考虑和设计系统。为更全面地反映分类系统的性能,一种做法是选取查准率和查全率相等时的值来表示系统的性能,该值叫做平衡点值。对于分类的总体性能评估,有宏平均和微平均两种评估方式。显然,宏平均把类别作为最小的评价单位;微平均把个体样本作为最小评价单位。

性能评估是目标识别系统设计的一个重要部分,它将决定系统是否满足特定应用的要求以及预期的作用。如果没有达到要求,设计者应当根据评估结果重新考虑和设计系统。另外,在特征选择阶段,错误分类概率也可以作为性能指标来选择特定分类器的最佳特征。

假设一个目标识别系统输出的各种结果统计情况见表3-1。

基于此表,可以得到系统的查准率(Precision)、查全率(Recall)、正确率(Accuracy)、错误率(Error)和F-测度值的计算公式,即

表3-1目标识别系统输出结果

978-7-111-38182-2-Chapter03-14.jpg

查准率978-7-111-38182-2-Chapter03-15.jpg

查全率978-7-111-38182-2-Chapter03-16.jpg

正确率978-7-111-38182-2-Chapter03-17.jpg

错误率978-7-111-38182-2-Chapter03-18.jpg

F-测度值978-7-111-38182-2-Chapter03-19.jpg

上面公式中,正确率和错误率不是很常用,因为计算公式的分母太大,导致其对识别正确的目标(TP)数目变化不是很敏感。F-测度值中的β是调整查准率和查全率在评价函数中所占比重的参数,通常采用β=1的F1测度值。

对于目标识别系统来说,查准率和查全率是一对相互矛盾的物理量。提高查准率往往要牺牲一定的查全率,反之亦然。为更全面地反映分类系统的性能,一种做法是选取查准率和查全率相等时的值来表示系统的性能,该值叫做平衡点(Break-even Point,BEP)值。在找不到查准率和查全率相等的时候,可以取最接近的查准率和查全率的平均值作为BEP值。

对于分类的总体性能评估,有宏平均(Maro-averaging)和微平均(Micro-averaging)两种评估方式。宏平均是先计算每个类别的指标,再计算每个类别指标的平均值;微平均计算所有个体样本指标的平均值。显然,宏平均把类别作为最小的评价单位;微平均把个体样本作为最小评价单位。当样本在所有类别中分布均匀时,宏平均等于微平均;当每个类别的个体样本数目悬殊时,宏平均会和微平均有较大的差别。

近年来,信号检测领域中的ROC(Receiver Operating Characteristics)曲线被引入到对分类识别的效果评估和优化[124,125]。曲线图的Y轴和X轴分别是评价指标TPR(True Positive Rate)和FPR(False Positive rate),其中,TPR和FPR的计算公式如下:

978-7-111-38182-2-Chapter03-20.jpg

随着阈值参数的调整,ROC空间中的曲线不但能直观反映识别系统的性能,曲线下的面积AUC(Area Under Curve)更可以量化分类器接受正例的倾向性。另外,ROC空间对样本在类别间的分布不敏感,可以反映错误代价(Error Cost)等指标的变化,具有特别的优势。基于该曲线图的相等错误率(Equal Error Rate,EER)即为TPR=1-FPR。

在目标检测领域中,将背景噪声正确地排除在目标类别之外的数目(TN)相对于正确检测出目标区域的数目(TP)来说过于庞大,而且它的计算对于检测系统的评估意义不大。目标检测系统更加关注于是否将目标全部检测出来以及检测出的区域有多少是虚警[79],这就引出了RPC曲线图(Recall Precision Curves),其Y轴和X轴分别对应评价指标查全率和虚警率(1-Precision)。有效地将RPC曲线用于目标检测系统的评价、比较以及优化,成为近期的一个研究热点[126,127]