【摘要】:关于分类和回归模型的各种评估方法,一种是处理分类任务的模型,一种是预测回归的模型,这两种模型的评估方法也不完全一致,下面就来分别介绍两种类型模型的各种评估手段。AUC可以说是用单个数字总结模型性能的最好方法,其实就是ROC曲线下方的面积大小。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。MAE可以表示预测与实际结果的接近程度。以上即为两种模型的常用评估方法。
关于分类和回归模型的各种评估方法,一种是处理分类任务的模型,一种是预测回归的模型,这两种模型的评估方法也不完全一致,下面就来分别介绍两种类型模型的各种评估手段。在介绍方法前首先了解以下四个概念:
TP即True Positive:预测正确的正样本个数。
TN即True Negative:预测正确的负样本个数。
FP即False Positive:将负样本错误的预测称为正样本的个数。
FN即False Negative:将正样本错误的预测称为负样本的个数。
Accuracy(准确率)。简单粗暴的方法,直接用预测正确的个数/总数×100%,即(TP+TN)/(TP+FN+FP+TN),但这个评估方法只适用于平衡数据集,即正负样本个数大致相同,若用于非平衡数据集效果会很差。
Precision(精确率)。精确率可以告诉我们正样本预测中正确预测的百分比,即TP/(TP+FP)。
Recall(召回率)。召回率可以告诉我们预测正确的正样本个数占总正样本个数的百分比,即TP/(TP+FN),通常,精确率和召回率成反比。
F score。F score很好地将精确率P和召回率R结合在一起,计算方式:F1=2×(PR/(P+R)),当F1=1时情况最好。
ROC曲线。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。其中真阳性率TPR=TP/(TP+FN),假阳性率FPR=FP/(FP+TN)。
AUC(Area Under the Curve)。AUC可以说是用单个数字总结模型性能的最好方法,其实就是ROC曲线下方的面积大小。使用AUC值作为评价标准是因为,很多时候ROC曲线并不能清晰地说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
MAE(Mean of the Absolute Value of the Errors)。平均绝对误差,是所有单个观测值与算术平均值的偏差的绝对值的平均。平均绝对误差可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。(www.chuimin.cn)
MAE可以表示预测与实际结果的接近程度。计算方法:
MSE(Mean of the Squared Value of the Errors)。均方误差测量数据点的预测值与实际值之差的平方和。由于平方的关系,负值不会抵消正值,还会放大误差的影响。计算方法:
RMSE(Square Root of the Mean of the Squared Errors)。均方根误差更积极地惩罚大错误而不是小错误,这意味着当大的错误特别不受欢迎时,RMSE应该更有用。计算方法:
MAPE(Mean Absolute Percent Error)。MAPE(平均绝对误差百分比)以百分比来衡量误差的大小。计算方法:
R2。介绍决定系数前首先介绍一下皮尔逊相关系数。皮尔逊相关系数是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。计算方法:
而决定系数代表可以由自变量X表示的因变量Y的差异(有多少百分比的Y可以被X所解释)。计算方法:
其中,
R2的缺陷。当我们人为地向系统中添加过多的自变量,SSE(Sum of Squares due to Error,和方差、误差平方和)会减少,从而R2变大。因此我们采用下面的校正R2惩罚了过多无意义的自变量。
Adjusted R2。计算方法:
其中n是样本个数,k是模型中解释变量的总数(不包括常数项)。
以上即为两种模型的常用评估方法。
相关推荐